A Printed Japanese Character Recognition System Using a Majority Logic

Hirosato Tabaru and Yasuaki Nakano

A Printed Japanese Character Recognition System Using a Majority Logic
Proceedings of the Third IAPR Workshop on Documet Analysis Systems, pp. 185-189 (1998)

[注意]
原文英語。ここでは概略を日本語で示す。

[概要]
市販の印刷日本語 OCR を6種類購入した。購入した OCR を示す。

Product name Producer

OmniPagePro 6.0j Caere Corporation

読取物語 EX v2.5 株式会社リコー

読んde!! ココ v3 エー・アイ・ソフト株式会社

認識工房 Wide97 株式会社ライオス・システム

WinReader PRO v3.5 メディアドライブ株式会社

e.Typist バイリンガルメディアドライブ株式会社

1997年10月の購入時点では、それぞれ最新版であった。この 6種の OCR に文書画像データベース JEIDA'93 を読み込ませて認識させた。各 OCR は強制判定とし、1位クラスをそれぞれの出力とした。 OCR ごとに文字の湧き出しや消失の箇所が異なるので、認識結果の文字列の対応を取る処理が必要であった。 OCR の認識結果の文字列の対応を取ったのち、文字ごとに認識結果として最も多く現れている文字クラスを結果として採用した。

4種類の文書1,476文字についてこの処理を適用し、次の結果を得た。なお、下記の A-F の OCR は上記の OCR の表中の順序とは無関係である。
(The A-F below do not coincide with the order of the products listed above.)

OCR 誤認識湧き出し消失認識率

A 24 6 0 97.97%

B 34 1 5 97.29%

C 11 1 2 99.05%

D 12 8 0 98.64%

E 9 1 2 99.19%

F 10 2 3 98.98%

多数決 4 2 0 99.59%

この表から、個々の OCR の認識率は 97.29%-99.19% であったものが、多数決処理により 99.59% に向上することが判る。特に、湧き出し・消失など、切り出し部の不良に基づく誤りが大きく減ることは特筆される。

←[多数決処理] ←[中野の研究紹介] ←[中野の目次]

mail address: ←　お手数ですが打ち込んで下さい

First Written Before June 16, 1998
Transplanted to KSU Before May 16, 2003
Transplanted to So-net May 3, 2005
Last Update April 8, 2007

Product name	Producer
OmniPagePro 6.0j	Caere Corporation
読取物語 EX v2.5	株式会社リコー
読んde!! ココ v3	エー・アイ・ソフト株式会社
認識工房 Wide97	株式会社ライオス・システム
WinReader PRO v3.5	メディアドライブ株式会社
e.Typist バイリンガル	メディアドライブ株式会社

OCR	誤認識	湧き出し	消失	認識率
A	24	6	0	97.97%
B	34	1	5	97.29%
C	11	1	2	99.05%
D	12	8	0	98.64%
E	9	1	2	99.19%
F	10	2	3	98.98%
多数決	4	2	0	99.59%