Nagy の法則とコンテスト

[手書き文字認識][中野の研究紹介][中野の目次]


Nagy の法則

文字認識手法あるいは装置の比較を行うとき、営業面ではコストも重要であるが、 技術的には認識率を比較することが多い。

認識率 (C) よりも誤認識率 (E) と認識拒絶率あるいはリジェクト率 (R) が重要であるが、 一般には単純化のため認識率 (C) を用いることが多い。

C = 1 - (R + E)
という関係があるから C を比較することは (R + E) を比較するのと等価である。 我々は (R + E) より (R + 10E) を比較する方が良いと判断し、そのようにしたが、このことは 認識性能の評価尺度 R+10E に書いた。

しかし、リジェクトを採用せず、強制判定することもあり、認識率 (C = 1 - E) を使うことも多い。

専門家には良く知られているが、認識率を比較する場合、データベースを指定しないと無意味である。 文字認識の世界的大家 Prof. Nagy の書いた皮肉な論文で、 「実験的パターン認識におけるずけずけ屋の実用原理」

G. Nagy, "Candide's practical principles of experimental pattern recognition",
IEEE Trans. PAMI, Vol.5, No.2, pp. 199-200 (1983)
があるが、その中の経験法則の一つが
「ある手法の認識率が他手法に勝つことができるようなデータセットが存在する」
である。仕掛けは簡単で、その手法で誤認識したパターンをデータベースから抜いてしまうのである。

これは言ってみればズルである。意図的にこんなことをする研究者はいないであろう。
しかし、意図してではないと思うが、別のズルがある。 認識率について学習セットと試験セットとを区別していない論文を、現在でも時々見かける。 学習セットとは、狭義には認識辞書 (標準パターン) のパラメータを決めるために使用したデータである。 認識辞書の設定に関与していないデータが試験セットであり、 一般に、試験セットの認識率は学習セットの認識率に比べて悪い。 ある認識手法を提案した論文で、提案手法では学習セットの認識率を示し、 公知手法における試験セットでの認識率 (通常、論文で示されるのはこの認識率である) と比較するのでは不公平である。

実際は、試験セットを全く見ないで認識方式の開発を進めることはほとんどない。 最初の認識実験では、確かに試験セットは初めて見るパターンばかりであるが、 その実験で出た誤読やリジェクトを解析して方式の改良を進めることが多いから、 試験セットも方式開発に全く関係しないという訳には行かない。 その意味で、試験セットもある程度学習されており、 ただ認識辞書のパラメータ設定には関与していないというに過ぎない。

学会論文などで、自分のところで集めたデータを使っていると 「都合の良いデータだけ使っているのではないか」と批判されることがあり、 悪い場合には返戻 (採録拒否) の理由にされる。 手書き文字データベース、 通称 ETL データベースのような公開データベースでの認識率を示せば、 客観的に他との比較ができる。 しかし、あらかじめそのデータベースに特化してパラメータを調整することも可能であるから、 客観的な比較は現実にはなかなか難しい。 ただ、データベースのサイズが大きくなると全てのパターンに対処するのは困難だから、 できるだけ大きいデータベースを用いよ、と言うしかない。

コンテスト

OCR 購入先がメーカーの選定を行うためにコンテストを実施することがある。 この場合は、各メーカーの OCR にとっては初めて見るパターンだから、 大学受験みたいなもので、装置の実力が問われてしまうことになる。 ただ、コンテストに用いるパターンの数が小さいと偏りが出て、装置の癖との組み合わせで運・不運は生ずる。 これも大学受験と同じである。

アメリカの OCR メーカーで通用する言葉で、「キラーシート」があったという。 自社の OCR では読めるが、他社の OCR では読めないようなシートを探して来る。 これがキラーシートである。キラーシートを展示会に持っていって他社の OCR に読ませ、 「あちらの会社 (自社) の OCR では簡単に読めるのに、この OCR では全然読めない」 などと回りの観衆に逆宣伝をしていたそうである。 これは、データベースが小さいと実力が発揮されない場合があることを逆に利用したものである。

コンテストで思い出したことがある。 大昔の噂で真偽不明であるが、あるコンテストでテスト帳票の文字の並びを利用した不正行為があったという。
コンテストでは大量のテスト帳票を読ませるので、 正しく認識されたかどうかの判定と認識率の計算を人間がやったのでは、時間もかかるし間違いも多い。 そこで、コンピュータ処理することになった。 コンピュータ処理のためには、例えば「アイウエオ」順に文字を書くというように、 記入される文字の並びが決っていないといけない。 ところが、文字の並びが判っているから、 OCR が誤読した結果を正解で置き換えて出力することは不可能ではない。

[余談: ground truth]
正解文字を記録したデータを "ground truth" と呼び、文字パターンデータベースでは重要である。 「アイウエオ」順に文字を書くときは "ground truth" はなくても良いが、 一般のデータベースではこれがないと研究上使い物にならない。
"Ground truth" は、もともとは地上の衛星写真画像から、 各領域が砂漠、森林、都市、牧場などの、どのカテゴリーに入るかを認識する際に生まれた用語である。 認識手法を研究する際には、各部分の真のカテゴリーが判っている画像がないと研究できない。 この「真のカテゴリー」を "ground truth" =「地上の真実」と呼んだのである。

ある会社の装置では、"ground truth" を利用して認識率を上げたという噂が流れた。 試験に例えればカンニングである。なぜカンニングが疑われたかというと、偉い人が視察に来て、 横書き帳票にたまたま縦書きで書いて読ませたところが、認識率がサッパリだったそうである。 それで、カンニングの疑いが出たという。
どうも嘘っぽい噂である。 しかし、不正の有無は別としてコンテスト会場が全メーカー立ち入り禁止になったたのは事実らしい。

[手書き文字認識][中野の研究紹介][中野の目次]

mail address: ← お手数ですが打ち込んで下さい

First Written February 4, 1999
Transplanted to KSU Before June 29, 2003
Divided June 29, 2003
Transplanted to So-net May 4, 2005
Last Update July 11, 2005