Evaluation of Character Recognition Method

研究テーマの詳細

評価基準 "R+10E"

文字認識手法の比較に際して注意すべき事項は別項に書いたので、そちらも参照して欲しい。

われわれが英数字・カタカナを対象とする文字認識手法開発に従事していたとき、認識手法の認識率の比較を行う尺度として用いていたのが、 R+10E である。

世界的に見てもこの尺度を提案して実施したのは早いと思うが、外部に発表していないので、われわれが用いていたことが知られていないのは残念である。世界では、初めて公表論文を書いた郵政研究所の提案と思っている人が多いらしい。

負け惜しみになるが、私の書いた解説でほんの数行触れていることも事実である（「精密機械」 Vol. 47, pp.804-808 (1981)）。

認識率としては、通常は第１位認識率を用いることが多い。未知入力文字パターンと各文字クラスとの似ている度合をある尺度で評価したとき、正解クラスが１位に来る割合が第１位正解率 (C) である。第１位正解率を認識率と呼ぶこともある。漢字認識の実用化に伴い、第N位累積正解率 (C_N)、すなわち正解クラスが上から数えて N位以上に来る割合を用いることも多くなった。

１位クラスの得点 (似ている度合) がどうあろうとも、強制的に結果を出す方式が強制判定であって、このとき、結果は正解または誤読になる。
正解率=C、誤読率=E とするとき、C+E=1 である。

認識率とならんで重要なのがリジェクト率 (認識拒絶率: R) である。これは、１位クラスの得点が低過ぎる場合、認識結果を出さずにリジェクトするものである。リジェクトは誤読を避けるために導入されたものであり、誤読だけを拒絶して正解は通すことが理想である。しかし、なかなかそううまくは行かない。したがって、リジェクトの導入により、誤読も多少減るが正解も犠牲になって低下するのが現実である。正解率=C、誤読率=E、リジェクト率=Rとするとき、C+E+R=1 である。

リジェクト判定に際してパラメータを用いる必要がある。例えば、類似性の尺度として類似度 Sを用いた場合、0≦S≦1 であるので、しきい値α (≦１) を設け、第１位候補クラスの類似度 S₁に対し「S₁≦αのときリジェクト」といった判定規則を用いることができる。
大きいαは厳しい判定に相当し、誤読もかなり減るがリジェクトも増える。極端な場合、α=1 に取れば全てをリジェクトするが、誤読は 0 である。小さいαは甘い判定に相当し、誤読は増えるがリジェクトは少い。 α→0 の極限が強制判定 (実際にはもっと大きいαで強制判定と同じ結果が出る) である。

このように、リジェクト判定のパラメータを変えることにより、誤読とリジェクトのトレードオフを行うことができる。われわれが、R+10E を用いようと決めた時点では、誤読よりはリジェクトの方が好ましいということは一般の感覚ではあったが、ではどのように評価すれば良いかということは議論されておらず、認識手法の評価としては、正解率 C を用いることが多かった。もちろん、C=1-R-E なので、R+E で評価するのと同じである。

一方われわれは、誤読をできるだけ減らす目的で、方式の評価基準として R+10E を設定した。なぜ、10 を用いるのか (R+5E の方が良いのか、R+100E にすべきなのか) について議論はしなかったが、結果的には R+10E は良い評価であったと思う。すなわち、リジェクト 10個の犠牲を払って見かけの正解率 Cが低下しても、誤読 1個を減らす方が良いと考えたのである。
後の話であるが、OCR の販売競争で顧客による読み取りテストが良く行われる。日立の OCR は、他社にリジェクト率では負けても誤読率では断然勝っているという時期があった。

近接リジェクト

ところで、実際のリジェクトには、上で説明した拒絶リジェクトの他に近接リジェクトがある。近接リジェクトとは、第１位クラスの類似度 S₁ と第２位クラスの類似度 S₂との差が小さく (S₁-S₂≦ε)、どちらのクラスであるかが判定困難な場合である。英字の H-M などが近接リジェクトを起こし易い例である。

実際には、近接リジェクトになると二段判定を行って、できるだけリジェクトを減らそうとするのが普通であるが、全ての近接ペアに対して二段判定を用意できないし、二段判定でも判断が付かないことがあるので近接リジェクトは多少とも残る。

拒絶リジェクトと近接リジェクトでは、ペナルティを変えても良いのではないかと考えている。例えば、漢字認識では認識結果に対して知識処理を行うことが多い。正解が第１位に来なくても、近接リジェクトの対象となった候補の中に入っていれば、知識処理で救うことができるから、準正解と見倣しても良いであろう。
知識処理が適用できる場合 (漢字以外でも知識処理は適用できる)、拒絶リジェクト率を R、近接リジェクト率を F、誤読率を Eとするとき、0.2 F + R + k E の評価はどうだろう。ここで、k は字種によるパラメータで、漢字の場合は k = 3 位だろうか。
なお、実際の知識処理では、近接リジェクトとなった候補クラスではなく、上位 N位に入った候補クラスを対象とすることが多い。

参考文献

←[手書き文字認識] ←[中野の研究紹介] ←[中野の目次]
[情報科学部目次]

mail address: ←　お手数ですが打ち込んで下さい

First Written February 2, 1999
Transplanted to KSU Before August 27, 2003
Transplanted to So-net May 4, 2005
Last Update July 11, 2005