印刷日本語文書OCRの多数決処理

[中野の研究紹介][中野の目次]


文字単位の多数決処理

複数の OCR の結果の多数決を取ることにより認識率を上げられるのではないか、 とは古くから考えられていた。昭和50年代 (1970年代後半) に特許調査を行い、 このアイデアが沖電気から出願され公告されていたのを見つけた (特公昭39-017007, 昭和39年8月18日公告)。
幸い (?) この特許はもちろん期限切れである。この特許公告が公知例になるので、 日本だけでなく世界中のほとんどの国で単純な多数決だけのアイデアは特許にはならない。 参考のため、この特許の図面を示しておく (赤い部分は筆者の補筆である)。

問題は、このアイデアがどの程度有効かである。
University of Nevada, Las Vegas は、 市販されていた複数の印刷英字 OCR について認識率のデータを求めるとともに、 多数決によって画期的に認識率が上がることを示した。
日本の郵政研究所でも、手書き数字に関する複数の OCR の認識結果の多数決によって、 認識率が上昇することを示した。

ところが、印刷日本語 OCR についてはこのような報告はない。
そこで市販されている 6種類の OCR について、同一の JEIDA 文書画像データベースを対象サンプルとして認識させたところ、 個々の OCR の認識率 97.29%-99.19% が 99.59% に向上した。 特に、湧き出し・消失など、切り出し不良に基づく誤りが大きく減ることは特筆される。 詳細については下記第一論文参照。
この論文の実験では 1,476文字とサンプル数が少かったが、 その後 17文書、9,775字にサンプルを増やして追実験した。 その結果、6種類の OCR の認識率 91.30%-98.10% が 99.33% に改良されることが判った。

多数決処理の実用性

沖電気が特許を成立させた昭和39年以後約30年間は、 多数決のアイデアに実現性はなかった。 当時の OCR (文字認識装置) はハードウェアとして作られていたので、 6種類のアルゴリズムを実装するとすれば、コストが 6倍になってしまう。 多数決のアイデアに実現性が出て来たのは、OCR がソフトウェアで作られるようになり、 CPU の速度が向上した最近になってからである。

それでは、ソフトウェア OCR なら実用化できるかというとそうとも言えない。 University of Nevada, Las Vegas の実験も、われわれの実験も、 OCR で読ませるべき領域の指定 (zoning) を手動でやっているからである。 いくら OCR の価格が安いからといって、領域指定をオペレータがやるのでは、 手間がかかって仕方ないし、指定を機種ごと間違える危険もある。

かといって領域指定を各 OCR の自動領域切り出しに任せたのでは、 領域指定能力が全く違うので、関係ない領域の文字を対応付けることになって、 これまた意味を持たない。

下記の第二の論文は、OCR の自動領域切り出し結果を比較し、 最適の領域対応付けを自動的に行うことを追求したものである。

参考文献

  1. H. Tabaru and Y. Nakano; A Printed Japanese Character Recognition System Using a Majority Logic, Proc. Third IAPR Workshop on Document Analysis Systems, pp. 185-189 (1998)
  2. H. Miyao, Y. Nakano, A. Tani, H. Tabaru and T. Hananoi; Printed Japanese Character Recognition Using Multiple Commercial OCRs, Journal of Advanced Computational Intelligence, Vol. 8, pp.200-207 (2004)
[中野の研究紹介][中野の目次]

mail address: ← お手数ですが打ち込んで下さい

First Written February 2, 1999
Transplanted to KSU Before May 16, 2003
Transplanted to So-net May 4, 2005
Last Update April 22, 2007

© Yasuaki Nakano 1999-2007