[文書画像理解][中野の研究紹介][中野の目次]


昭和59年 (1984年) 日立技術展

かなり立ち入った内容だが、もう時効だと思うので書いてしまう。

ほぼ 2年ごとに開催されていた日立技術展は、日立の最新技術を展示するものである。

出展のきっかけ

昭和59年(1984年)の日立技術展は11月頃に予定されたが、 テーマ募集は 1年以上前にあった筈である。

文字認識グループは、第2回 (昭和48年=1973年) に FORTRAN Program Reader と印刷漢字 OCR を出展した後は沈黙していたので、今回こそ何か出そうと決めた。 漢字認識アルゴリズムの開発がちょうど間に合いそうなので、 手書き漢字 OCR を出展しようと決めた。

問題は、既に他社では手書き漢字 OCR を製品化していたことだった。 技術展は研究中の技術を公開するのだから、他社で製品化済の手書き漢字 OCR を出展しただけでは「日立は立ち遅れております」 と公言するのに等しい。そこで、日立は手書き漢字 OCR なんか大昔に開発済で、 製品化しないのは営業戦略の問題に過ぎず、実は凄い技術を持っているのだ、 と誇示することになった。

文書入力 OCR の最初のアイデア

出展では「文書入力 OCR」という名称がまず決まったが、 その内容が何もない。

本体は漢字 OCR だが、漢字 OCR では今更という状況にあったことは上に書いた通りである。 そこで、"+α" して凄いものにせよ、と私が命じられた。 そこで、ない知恵を絞って出展内容を考えた。詳細は書けないが、最初の案は全く違っていた。 今から思うと下らない内容だ。 しかし、後の ICDAR で外国の有名研究室からほとんど同内容の発表があり (私のアイデアよりは劣っており、問題点も把握していなかったようだ)、 学会論文になる程度のアイデアではあった。

路線変更と突貫作業

そうするうち、昭和59年(1984年)2月の人事異動で、文字認識グループの大半は新設の 「マイクロエレクトロニクス機器開発研究所」に移ることになり、 私を含む僅か 4名の研究室を藤澤氏が率いることになった。 ただし、異動メンバーも出展品の完成まで中研に残って、 技術展までは文字認識技術開発を藤澤氏が指導することになった。

就任直後、藤澤氏は出展内容に疑問を抱いて徹底的な見直しを行い、討論の結果、 内容が一新された。出展まで 僅か8ヶ月の時期 に大改革を行った藤澤氏の英断には、今もって感服する。それを引き受けた私も偉いけど。

新しい内容は、コンピュータに帳票 (文書の一つ) のレイアウト構造と 論理構造を理解させるものである。表形式帳票に限定されているとは言え、 「文字認識と協調した文書理解技術」 の実現は世界最先端の技術だと主張できた。 実用上も、OCR 利用者に繁雑だったフォーマットプログラム作成作業を不要にする意義がある。

この路線変更の結果、新しい技術開発を半年で行わないといけない。 開発作業の大半を占める手書き漢字認識は、以前から技術展の時期を目標にしていたので、 路線変更の影響は少い。私の担当する文書理解部は、小さいとはいえ目玉だし、 新規開発なので、出展成功のカギを握ることになった。

今から思うと、良くできたと思う。
ハードウェアには次期 OCR 製品試作機を流用した。開発作業の大半は、 試作機の英数字認識プログラムを漢字認識プログラムに入れ換えるものだった。
レイアウト構造と論理構造の理解は、 日立のパーソナルコンピュータ B16 の上で BASIC 言語で書いた (プログラム外注した)。 大変なステップ数で BASIC で作るのがそもそもおかしかったが、とにかく完成してしまった。

他人に頼めないのが文書画像処理プログラムだった。速度の要請から、OCR プロセッサのアセンブリ語で書く必要があるが、独自設計のプロセッサなので、 外注先はプログラムを請負ってくれない (自分達の技術進歩に役立たないから)。 中研のチームは漢字認識にかかりきりで、私以外に人がいない。 仕方がないので、私がプログラムを書いた。
アルゴリズムを最初から考えて、プログラムを一から書く余裕はないので、 OCR 製品用に作られていた前処理ルーチンを改造することにした。 プロセッサの構造も製品機プログラムのアルゴリズム詳細も理解せずに改造したのだから、 無謀としか言いようがない。

文字認識では、扱う画像は極く小さいので、各種のテーブルは 65,536 Byte の高速 SRAM に収容できるし、メモリアドレスは 2 Byteで済む。一方、文書画像処理ではテーブルは 1,000 KB のオーダになるので DRAM を使う必要がある。 DRAM のアクセスは面倒だし、 メモリアドレスも 2 Byte では足りず 4 Byte になるから、プログラムに雲泥の差が出る。

プログラムのアセンブル・リンクに1日以上時間がかかるので、 バグを見つけるとバイナリにパッチをあてて修正するなど、デバッグも大変だった。

あんな文書画像処理プログラムがどうして作れたか、自分でも良く判らない。

他社への衝撃?

「文書入力 OCR」は他社にショックを与えたらしい。某社の文字認識研究リーダーは、 「文字認識研究はもう終ったから、研究の方向を人工知能にシフトしよう」 と主張していたらしいが、技術展の展示内容を所長に報告したところ、 「人工知能といっても夢のようなものではなく、 地に足の付いたものでないといけない。日立を見習え」と叱られたらしい。

別の技術的目玉として、文字枠を設けず、記入枠内に複数の文字を書かせたことがある。 この技術は手書き数字について既に製品化しており、 接触文字を許した手書き数字 OCRとしては世界で初めてだった。 漢字での接触文字の分離はは無理だったが、文字枠のない手書き漢字 OCR は他社には脅威だったろう。

[文書画像理解][中野の研究紹介][中野の目次]

mail address: ← お手数ですが打ち込んで下さい

First Written Before February, 1998
Transplanted to KSU Before May 16, 2003
Transplanted to So-net May 3, 2005
Last Update April 10, 2007

© Yasuaki Nakano 1998-2007