文字認識と協調した表形式文書の理解

中野康明、藤澤浩道、国崎修、岡田邦弘、花野井歳弘

電子情報通信学会論文誌, Vol.J69-D [3], pp.400-409 (1986)

あらまし

従来の OCR では使用に先立ち帳票の書式を定義する必要があったが、 その作成が極めて煩雑だった。われわれは、機械が文書理解能力を持てば、 帳票に記入されるデータの位置や字種などの書式情報を自動生成できるという観点から、 一般事務で広く使われている表形式帳票を対象とする文書理解方式を開発し、 手書き漢字認識機能を有する「文書入力 OCR」に適用した。 文書入力 OCR では、見本帳票を呈示するのみでその構造を理解し、 帳票の書式を登録するようにした。すなわち、表の中の枠を抽出し、 枠間の相対関係を用いて表の構造を認識する。次に枠内の文字を認識し、 認識された文字列と表の構造とを帳票に関する知識と照合して、帳票の意味を理解し、 この結果から帳票の書式データを生成・登録する。 文書入力 OCR の読みとりモードでは、 既登録の書式データを利用してデータ枠の中に記入された文字を認識する。 データ枠内部では、接触非許容・複数行不可・ていねいな楷書体の制約の下で、 特に文字枠を設けずに手書き漢字の記入を許している。 書式データによって指示される単語辞書を用いて認識結果の単語照合を行う。 ワードプロセッサで作成した表形式帳票による実験結果を示す。

[文書画像理解][中野の研究紹介][中野の目次]

mail address: ← お手数ですが打ち込んで下さい

First Written Before June 17, 1998
Transplanted to KSU Before May 16, 2003
Transplanted to So-net May 3, 2005
Last Update April 10, 2007

© Yasuaki Nakano 1998-2007