ほぼ 2年ごとに開催されていた日立技術展は、日立の最新技術を展示するものである。
文字認識グループは、第2回 (昭和48年=1973年) に FORTRAN Program Reader と印刷漢字 OCR を出展した後は沈黙していたので、今回こそ何か出そうと決めた。 漢字認識アルゴリズムの開発がちょうど間に合いそうなので、 手書き漢字 OCR を出展しようと決めた。
問題は、既に他社では手書き漢字 OCR を製品化していたことだった。 技術展は研究中の技術を公開するのだから、他社で製品化済の手書き漢字 OCR を出展しただけでは「日立は立ち遅れております」 と公言するのに等しい。そこで、日立は手書き漢字 OCR なんか大昔に開発済で、 製品化しないのは営業戦略の問題に過ぎず、実は凄い技術を持っているのだ、 と誇示することになった。
本体は漢字 OCR だが、漢字 OCR では今更という状況にあったことは上に書いた通りである。 そこで、"+α" して凄いものにせよ、と私が命じられた。 そこで、ない知恵を絞って出展内容を考えた。詳細は書けないが、最初の案は全く違っていた。 今から思うと下らない内容だ。 しかし、後の ICDAR で外国の有名研究室からほとんど同内容の発表があり (私のアイデアよりは劣っており、問題点も把握していなかったようだ)、 学会論文になる程度のアイデアではあった。
就任直後、藤澤氏は出展内容に疑問を抱いて徹底的な見直しを行い、討論の結果、 内容が一新された。出展まで 僅か8ヶ月の時期 に大改革を行った藤澤氏の英断には、今もって感服する。それを引き受けた私も偉いけど。
新しい内容は、コンピュータに帳票 (文書の一つ) のレイアウト構造と 論理構造を理解させるものである。表形式帳票に限定されているとは言え、 「文字認識と協調した文書理解技術」 の実現は世界最先端の技術だと主張できた。 実用上も、OCR 利用者に繁雑だったフォーマットプログラム作成作業を不要にする意義がある。
この路線変更の結果、新しい技術開発を半年で行わないといけない。 開発作業の大半を占める手書き漢字認識は、以前から技術展の時期を目標にしていたので、 路線変更の影響は少い。私の担当する文書理解部は、小さいとはいえ目玉だし、 新規開発なので、出展成功のカギを握ることになった。
今から思うと、良くできたと思う。
ハードウェアには次期 OCR 製品試作機を流用した。開発作業の大半は、
試作機の英数字認識プログラムを漢字認識プログラムに入れ換えるものだった。
レイアウト構造と論理構造の理解は、
日立のパーソナルコンピュータ B16 の上で BASIC 言語で書いた (プログラム外注した)。
大変なステップ数で BASIC で作るのがそもそもおかしかったが、とにかく完成してしまった。
他人に頼めないのが文書画像処理プログラムだった。速度の要請から、OCR
プロセッサのアセンブリ語で書く必要があるが、独自設計のプロセッサなので、
外注先はプログラムを請負ってくれない (自分達の技術進歩に役立たないから)。
中研のチームは漢字認識にかかりきりで、私以外に人がいない。
仕方がないので、私がプログラムを書いた。
アルゴリズムを最初から考えて、プログラムを一から書く余裕はないので、
OCR 製品用に作られていた前処理ルーチンを改造することにした。
プロセッサの構造も製品機プログラムのアルゴリズム詳細も理解せずに改造したのだから、
無謀としか言いようがない。
文字認識では、扱う画像は極く小さいので、各種のテーブルは 65,536 Byte の高速 SRAM に収容できるし、メモリアドレスは 2 Byteで済む。一方、文書画像処理ではテーブルは 1,000 KB のオーダになるので DRAM を使う必要がある。 DRAM のアクセスは面倒だし、 メモリアドレスも 2 Byte では足りず 4 Byte になるから、プログラムに雲泥の差が出る。
プログラムのアセンブル・リンクに1日以上時間がかかるので、 バグを見つけるとバイナリにパッチをあてて修正するなど、デバッグも大変だった。
あんな文書画像処理プログラムがどうして作れたか、自分でも良く判らない。
別の技術的目玉として、文字枠を設けず、記入枠内に複数の文字を書かせたことがある。 この技術は手書き数字について既に製品化しており、 接触文字を許した手書き数字 OCRとしては世界で初めてだった。 漢字での接触文字の分離はは無理だったが、文字枠のない手書き漢字 OCR は他社には脅威だったろう。
mail address: | ![]() |
← お手数ですが打ち込んで下さい |
First Written Before February, 1998
Transplanted to KSU Before May 16, 2003
Transplanted to So-net May 3, 2005
Last Update April 10, 2007
© Yasuaki Nakano 1998-2007