Noises for Character Recognition Research

研究テーマの詳細

文字認識に関する外野からの雑音

われわれが英数字・カタカナを対象とする文字認識手法開発に従事していたとき、会社のお偉いさんからいろいろ御指導を受けた。

誰でも文字は読めるから、自分が読める文字が何故機械で読めないかについて、いろいろ意見を述べることができる。しかも、音声とは違って文字の構成原理が明確なので、自分はこのように文字を認識しているに違いない、という思い込みも強烈である。

昭和42年頃の第１次の郵便区分機開発 (このときは日立は撤退した) の時期には、このような思い込みからの御意見も多数あったらしいが、このときは私は関与していなかったので影響はなかった。

われわれが文字認識手法開発に取り組んだ時期では、さすがに人間と機械の認識方式は違うのだということがお偉いさんにも理解され、こういう風に認識しなさいという御指導はなかった。

誤読はダメだ、リジェクトにしろ

その代りに困ったのが、誤読は絶対ダメだ、という意見である。「誤読はお客さんに大変な迷惑をかける (それはそうだが)。判定が曖昧ならばリジェクトすればいい」と主張される。もちろん、われわれも好んで誤読したい訳ではなく、 R+10E 基準を採用したのも誤読の少ない認識方式を実現したいからだった。

しかし、機械による文字認識では、自信を持って出した答えが誤りであり、確信がなくてリジェクトした答えが正解であることは非常に多い。このことは多分パターン認識の専門家以外には完全には理解して貰えないだろう。

誤り 0 の認識方式を開発するのは、実は簡単である。全ての入力パターンをリジェクトしてしまえばいいからである。
しかし、そんな装置が受け入れられる筈もない。誤読もお客さんには迷惑だが、リジェクトだって数が多ければ迷惑である。工学的観点からは、許容されるリジェクト率というものがあって、その条件の下で誤読率最小の方式 (+辞書) を開発すればいいではないかと考える。 (誤読率一定でリジェクト率最小でも良い。両者のバランスを取ったのが R+10E 基準である。)
しかし、お偉いさんは「誤読は製品の欠陥である。1個でも出すことはまかりならぬ」と凄い見幕なので、相手にしては怪我をする。

現場で誤読パターンを採取するという発想はないのか

コンピュータのハードウェアの専門家から「コンピュータでは出荷後に異常があると、自動的に内部のフリップフロップを全部スキャンしてフロッピーディスクに出力し、これを工場に持ち帰って解析し、原因を究明している。君らには、誤読パターンを現場で集めて解析するという発想はないのか」と叱られたことがある。
これは大型機の話である。大型機では、サービスマンの常駐あるいは定期保守などで正常運転を保証しており、異常が出たらすぐに解析する方式が確立している。
しかし、そもそも文字認識装置では誤読したことが自分では判らないから、これは無理である。リジェクトパターンなら不可能ではないが、文字パターンのデータ量は物凄く多いから、すぐフロッピーがパンクしてしまう。

リジェクトなら今はできるかも

上記のコンピュータのハードウェアの専門家は 1980年代前半の上司であった。当時は上に書いた理由で、折角のご指導も物理的に実行困難であった。 CDR やフラッシュメモリなど、大容量メモリが安価に入手できる現代では、物理的には不可能でない。

しかし、顧客の秘密保持という点では実行困難である。個別の文字パターンなら未だ許されるかも知れない。しかし、最近の文字認識では、個別の文字画像に止まらず帳票全体の画像を解析している。これを自動的に行うには顧客の帳票を (いわば勝手に) コピーして、メモリに格納しないといけないが、それを顧客が許可してくれるかどうか疑問もある。

参考文献

←[手書き文字認識] ←[中野の研究紹介] ←[中野の目次]

mail address: ←　お手数ですが打ち込んで下さい

First Written February 2, 1999
Transplanted to KSU Before August 27, 2003
Transplanted to So-net May 4, 2005
Last Update July 11, 2005