Document Understanding Using FDL

書式定義言語を用いた文書画像の理解

東野純一、藤澤浩道、中野康明、江尻正員

画像電子学会誌, Vol.17 [5], pp.267-276 (1988)

あらまし

広範囲の文書画像に適用できる解析手法として、トップダウン型文書画像理解手法を提案した。ここでは、文書のレイアウトを規定する規則をその文書の知識として表現するための言語として、書式定義言語 FDL (Form Definition Language) を開発した。この FDL では、文書のレイアウトをフォームと呼ぶ意味のある長方形の集合として記述し、フォーム内部をさらにフォームの集合として再帰的に記述する。文書画像の解析にあたっては、入力された画像を FDL で記述された書式定義と照合し、書式の中で定義された領域 (たとえば表題部、著者部、頁番号など) と文書の中の部分画像を対応付ける。その対応結果から、文書画像中の意味のある領域を同定でき、さらにその内部の文字を認識することにより、文書の書誌事項が抽出される。本論文では、この FDL の文法の概要について述べ、実際の文書画像に対する記述例を示した。また、計算機上に FDL を解釈実行する処理系を実現し、実際の文書画像について実験を行い、本手法が文書の自動ファイリングシステムの基本方式として有用であることを示した。

←[文書画像理解] ←[中野の研究紹介] ←[中野の目次]

mail address: ←　お手数ですが打ち込んで下さい

First Written Before June 17, 1998
Transplanted to KSU Before May 16, 2003
Transplanted to So-net May 3, 2005
Last Update April 10, 2007