[漢字認識][中野の研究紹介][中野の目次]

印刷漢字認識アルゴリズムの研究

中野康明

工学博士学位論文(東京大学工学部)、昭和50年10月

本論文は、筆者が日立製作所中央研究所において、11年間にわたり行った パターン情報処理に関する研究のうち、印刷漢字認識手法に関する研究をま とめたものである。本論文はつぎのような内容からなっている。

第1章では、電子計算機入力における漢字処理の重要性と本論文の位置づけ を行った。本研究の目的は、電子計算機入力としての一理想形態として漢字 認識をとり上げ、印刷漢字認識アルゴリズムを確立することにある。

第2章では、漢字認識技術の背景と本論文の立場について述べた。印刷漢字 認識技術の困難性を、主に印刷英数字認識のそれと比較して論じ、この困難 性が質的なものというより量的なものであることを明きらかにした。2.1 節で本研究の対象を単一字体印刷漢字に限定することを明確にした。2.2 節で量的な困難性を解決するためのアプローチについて考察し、分類により 対象カテゴリーを限定する方法と、対象カテゴリーはそのままにして、1パ ターンを表す情報量と減少させるアプローチの二つがあることを述べた。

第3章では、上記の二つのアプローチのうち、分類により対象カテゴリーを 限定する方法と実験結果を述べた。3.1節では、本研究で使用した漢字サ ンプルの性質をまとめて述べた。3.2節では、文字を表現する二次元パタ ーンの水平および垂直軸上への投影である周辺分布を定義し、これを利用し た分類法と実験結果を示し、このアプローチの限界を明きらかにした。

第4章では、パターンの情報圧縮により量的な困難性を解決するアプローチ を考察した。ここで採用した情報圧縮法としては、3.2節で定義した周辺 分布を用いている。まず、4.1節で周辺分布のパターン整合による漢字認 識手法と実験結果を述べた。その結果、教育漢字881字を対象とした実験 で、かなりよい認識率が得られること、しかしパターンの位置ずれに対して 認識率が低下することと情報圧縮率があまり高くないことの二点で、なお改 善すべき点が残されていることを示した。4.2節では、上記の欠点を改良 するために周辺分布のスペクトルを利用する認識手法を提案し、実験結果を 示した。4.3節では、周辺分布のスペクトルを利用する手法を認識アルゴ リズムとして採用し、ミニコンピュータを用いて実現した漢字認識実験シス テムについて述べた。4.4節では、周辺分布のスペクトルを利用する手法 の拡張について考察し、線幅変動の影響を補正する手法とこれによる実験結 果について述べた。また、周辺分布のスペクトルの延長として二次元振幅ス ペクトルが得られることを示したが、この事実は第5章に述べる研究の契機 となった。

第5章では、分類法的なアプローチと情報圧縮的なアプローチの結合である 階層的パターン整合法について述べた。まず、5.1節では、山本により提 案された階層的パターン整合法について概説した。5.2節では、空間周波 数領域における階層的パターン整合法を述べ、この手法が周辺分布のスペク トルを利用した手法と、階層的パターン整合法とを総合したものであること を明きらかにした。5.3節では、空間領域と周波数領域での階層的パター ン整合法の比較を行った。5.4節では、周波数領域における階層的パター ン整合法による認識実験結果について述べた。5.5節では、この手法を利 用した漢字認識システムの想定される実現形態について考察した。

第6章においては、第5章までの単一字体印刷文字を対象としたものを拡張 して複数字体印刷文字を対象とする認識アルゴリズムを考察し、実験結果を 述べた。

第7章においては、本論文全体に対するまとめを行った。

[漢字認識][中野の研究紹介][中野の目次]

mail address: ← お手数ですが打ち込んで下さい

First Written Before August, 1996
Transplanted to KSU Before May 15, 2003
Transplanted to So-net May 3, 2005
Last Update April 8, 2007

© Yasuaki Nakano 1996-2007