Hirosato Tabaru and Yasuaki Nakano
A Printed Japanese Character Recognition System Using a Majority Logic
Proceedings of the Third IAPR Workshop on Documet Analysis Systems, pp. 185-189 (1998)
[注意]
原文英語。ここでは概略を日本語で示す。
[概要]
市販の印刷日本語 OCR を6種類購入した。購入した OCR を示す。
Product name | Producer |
OmniPagePro 6.0j | Caere Corporation |
読取物語 EX v2.5 | 株式会社リコー |
読んde!! ココ v3 | エー・アイ・ソフト株式会社 |
認識工房 Wide97 | 株式会社ライオス・システム |
WinReader PRO v3.5 | メディアドライブ株式会社 |
e.Typist バイリンガル | メディアドライブ株式会社 |
1997年10月の購入時点では、それぞれ最新版であった。 この 6種の OCR に文書画像データベース JEIDA'93 を読み込ませて認識させた。 各 OCR は強制判定とし、1位クラスをそれぞれの出力とした。 OCR ごとに文字の湧き出しや消失の箇所が異なるので、 認識結果の文字列の対応を取る処理が必要であった。 OCR の認識結果の文字列の対応を取ったのち、 文字ごとに認識結果として最も多く現れている文字クラスを結果として採用した。
4種類の文書1,476文字についてこの処理を適用し、次の結果を得た。
なお、下記の A-F の OCR は上記の OCR の表中の順序とは無関係である。
(The A-F below do not coincide with the order of the products listed above.)
OCR | 誤認識 | 湧き出し | 消失 | 認識率 |
A | 24 | 6 | 0 | 97.97% |
B | 34 | 1 | 5 | 97.29% |
C | 11 | 1 | 2 | 99.05% |
D | 12 | 8 | 0 | 98.64% |
E | 9 | 1 | 2 | 99.19% |
F | 10 | 2 | 3 | 98.98% |
多数決 | 4 | 2 | 0 | 99.59% |
この表から、個々の OCR の認識率は 97.29%-99.19% であったものが、 多数決処理により 99.59% に向上することが判る。 特に、湧き出し・消失など、切り出し部の不良に基づく誤りが大きく減ることは特筆される。
mail address: | ![]() |
← お手数ですが打ち込んで下さい |
First Written Before June 16, 1998
Transplanted to KSU Before May 16, 2003
Transplanted to So-net May 3, 2005
Last Update April 8, 2007
© Yasuaki Nakano 1998-2007