藤澤の経験式

[標準パターンとは何か] [Nagy の法則] ["R+10E" 基準] [藤澤の経験式]
[パターン認識雑論][中野の研究紹介][中野の目次]


1 序論

標準パターンについては何かは別ページに述べた。
その中で言及した標準パターンの個数と認識率とについて、 藤澤 (日立中研) が得た実験式について述べる。

2 クラス当りの標準パターンの個数

クラス当りの標準パターンは1個に限定する理由はないことも、上記のページで述べた。 直感的に理解されるように、標準パターンを増やせば認識率は上がると言える。

上記のページで述べた 「学習セットのサンプルを全て標準パターンとする」方式では、 学習セットに含まれるサンプルは全て正しく認識される。
この方式では、標準パターンの総数は、学習セットのサイズに等しいが、 学習セットを大きくすれば検査セットの認識率も高くなると言えるので、 標準パターン数を増やせば認識率は上がると言える。
標準パターン追加前にはリジェクトだった未知パターンが、 追加した標準パターンに捕捉されて誤認識になることはあるので、 標準パターン数を増やせば認識率が上がるというのは厳密には正しくない。 しかし、検査セットでリジェクトになったパターンを学習セットに追加するようにすれば、 認識率が上がるのは確かである。

上記のページで示した別の方式、 「全てのメッシュパターンに対して正解コードを付与する」では、 あるクラスの標準パターンは、 そのクラスの正解コードを付与されたメッシュパターンの集合である。 それ以上には標準パターンは増えないが、この個数は天文学的な数である。

3.1 認識率

3.1 認識率と誤認識率

標準パターンの個数と認識率の関係を述べる前に、認識率について述べておく。 認識手法の性能を表すのに認識率 (C) を使うことが多い。

認識率の代りに第N位累積正解率を用いることがある。 未知入力文字パターンと各文字クラスとの似ている度合を評価したとき、 正解クラスがN位に来る割合が第N位累積正解率である N = 1 のとき:第1位累積正解率は通常の認識率と一致する。 以下、第1位累積正解率を認識率と同義で用いる。

しかし、認識率は (特に非専門家には) 誤解を与える面がある。
正しく認識できなかった率が誤認識率 (E) である。 リジェクトがないとして、認識率 (C) と誤認識率 (E) の間には
C + E = 1
という関係がある。
ところで、認識率の数値は人間の感覚には明確な印象を与えないことがある。
例えば、認識率 (C) が 99% も 99.9% も大差ないように見える。 しかし、誤認識率 (E) が、それぞれ 1% と 0.1% であると説明されれば、 後者の方がはるかに性能が高いことが判るだろう。

C = 80% は高い認識率のように聞こえるが、 実用的な見地からは感心している場合ではないのであって、 E = 20% ではないかと鋭く批判しないといけないのである。

3.2 誤認識率とリジェクト率

実際の認識手法では、リジェクトを設けることが多い。 誤認識をそのまま出力してしまうと修正が大変なので、 降参して答えを出さない方がマシである。 そのためにリジェクトが設けられる。

理想的には、誤認識と疑われる場合にはリジェクトし、 自信を持って認識した場合は答えとするのが望ましい。 しかし、自信を持って出した答えが誤りで、 疑わしいとしてリジェクトした結果が正解であることはよくある。

リジェクト率を (R) と書けば、、 認識率 (C) 、リジェクト率 (R)、誤認識率 (E) の間には
C = 1 - (R + E)
という関係がある。

3.3 二つのリジェクト

専門家の間では常識だが、リジェクトには2種類ある。

一つは拒絶 (Reject) で、認識系から自信のある答えが1個も出ない場合である。 もう一つは競合 (Conflict) で、二つ以上のクラスが正解候補であり、 どちらとも決めがたい場合である。

拒絶率 (J)、競合率 (F)、リジェクト率 (R) の間には
R= J + F
という関係がある。
多くの場合、拒絶と競合を区別しないで一括してリジェクトとして扱うことが多い。

3.4 第N位累積正解率

漢字認識の実用化に伴い、第N位累積正解率 (CN)、 すなわち正解クラスが上から数えて N位以上に来る割合、を用いることも多くなった。

正解クラスが上位にある場合、認識結果は正解であることが多いが、 競合になることも多いだろう。

漢字認識のように知識処理を後処理として用いる場合、正解が上位にあることが重要である。 したがって、同じリジェクトであっても、拒絶より競合の方が望ましいといえる。
知識処理でなくても、候補文字を表示して選択させる場合、 第N位累積正解率は修正処理の容易さを評価する上で重要となる。
細かく言うと、正解クラスが候補に含まれていない競合は誤認識扱いとすべきである。 候補選択の場合、正解クラスが候補に含まれていれば、1クリックで正解を入力できるが、 候補に含まれていなければカナ漢字変換で入力しないといけないからである。 ただ、人手による正解入力を促される点は単純な誤認識よりはマシである。

4 藤澤の経験式

4.1 (R+10E) 基準

2節で述べたように、標準パターンの個数を増やせば認識率は上がる。 しかし、定性的ではなく、定量的にその効果が計れないものであろうか。
その疑問に答えるのが藤澤の経験式である。

藤澤の経験式について説明する前に、 認識率というよりむしろ認識不良率について述べる。 認識不良率としては、誤読率=E やリジェクト率=R を生で使うのではなく "R+10E" 基準、 すなわち (R+10E) を認識不良の評価として使う方が良い。

4.2 藤澤の経験式

認識不良率として (R+10E) を取ることにしよう。

われわれの研究の中で、藤澤氏 (現在も日立中研) が得た経験式
log(R+10E)=a-b・log(N)
がある。
ここで Nは標準パターンの個数、係数a、bは方式により定まる定数で通常 b<1 である。 この式から、評価尺度 R+10E を 1/10 にするためには、 a = 0, b = 1 と仮定して、N を 10倍にしなくてはいけないことが判る。

藤澤の経験式は多くの方式について当てはまることが知られている。
もちろん、闇雲に標準パターンを増やしてもダメで、 合理的な根拠と手順によって、という条件は付く。

5 考察

5.1 パラメータ a, b

パラメータ a, b は方式に依存する定数である。 したがって、方式によって素性の良いものと悪いものがある。

パラメータ b<1 であるが、 b が大きいほど標準パターン増大の効果はある。 b が小さければ標準パターンを増やしても効果は出ない。
素性の悪い方式でも、その方式を捨てる訳には行かないので、 標準パターンを増やして認識不良率を下げようというアプローチはあり得る。 しかし、b が大きい方式に比べ、 同じ認識不良率にするためには標準パターンの個数が格段に増え、 コスト的に太刀打ちできないのである。

参考文献

[1] 藤澤浩道, 他; OCR における手書数字認識の技術と応用の動向, 信学技報

[標準パターンとは何か] [Nagy の法則] ["R+10E" 基準] [藤澤の経験式]
[パターン認識雑論][中野の研究紹介][中野の目次]

mail address: ← お手数ですが打ち込んで下さい

First Written June 19, 2004
Transplanted to So-net May 3, 2005
Last Update April 22, 2007

© Yasuaki Nakano 2004-2007