研究×SDGs情報科学部ディジタルメディア学科 若原 徹 教授

パターン認識研究の夢と現実

  • 2021年 04月12日
研究×SDGs

パターン認識研究の草創期に遅れて参加して

人間には、五感(見る・聞く・嗅ぐ・味わう・触れる)を通して外界から得られた情報をさまざまな目的に合わせて処理して理解する優れた能力があります。その能力をコンピュータで工学的に実現する技術が、パターン認識です。20世紀の中頃、ディジタル計算機(コンピュータ)を使って何を実現できるかと多くの研究者が夢を描いたとき、人工知能の実現がまず取り上げられました。特に、パターン認識技術が注目され、基礎理論が構築されました。1950〜1960年代はパターン認識研究の草創期であり、高揚期でした。

私は1970年代半ばに大学院を卒業し、企業の研究所に入りました。大学の専攻は応用物理でしたが、入所面接で「パターン認識はどうか」と聞かれて、全く知らない分野であったにもかかわらず、あるいはそうであったからこそ、「挑戦したいです」と答えました。与えられた研究テーマは、「手書き文字認識」でした。実際、多くの企業の研究所で文字認識の研究が精力的に取り上げられていました。

当時のパターン認識研究は、「データ入力→前処理→特徴抽出→識別→カテゴリ出力」というパラダイムに従っていました。「識別」のための統計理論の蓄積はありましたが、パターンからどんな「特徴抽出」を行えば「識別」に有用であるかが分かっていませんでした。私は、主に理論研究がなされた草創期に遅れて参加し、コンピュータの処理能力の高まりと同期した、活気ある実験研究の競争のただ中に飛び込んだのです。

研究テーマを定めて夢中になったこと

自分に合った研究テーマを見いだすのは、とても難しいことです。私に与えられたテーマは、紙の上に書かれた手書き文字の認識でした。いわゆる光学的文字認識(OCR)の技術です。何年か取り組みましたが、アイデアは面白いと思っても認識性能が出ませんでした。その後、タブレットに書かれた手書き文字を認識する「オンライン文字認識」に研究テーマを変更しました。「筆順を間違い、続け書きされても、正しく認識できる」ことが課題でした。

私は、正しい画数(M画)と筆順で書かれた標準文字と、続け書きされた画数(N画)で筆順も違う入力文字との間で、M本とN本のストローク(一筆で書いた部分)の対応付けを行えばいいだろうと、問題を単純化しました。そこからの研究はとても楽しく進められました。そして自分なりに納得できる、ストローク対応付けのアルゴリズム(計算の手順)を考案できたのです。この研究が自信になりました。人から与えられた研究テーマでも、対象についてとことん集中して粘り強く考えていくと、解くべき問題が明らかになります。「解くべき問題を創ること」が研究の醍醐味であり、それができれば研究の半分は進んだといえます。後はこつこつ解けば良いのです。

企業の研究所を退職して、2001年に本学に着任してからも「パターンの変形を対応付けの問題として解く」が基本アプローチになっています。具体的には、画像中に埋め込まれたゆがんだ物体を高精度に検出する「柔らかな画像マッチング」の研究に取り組んでいます。「パターンの変形とは何か」を追求して「変形を理解する」ことが、一貫して私のパターン認識研究の夢です。

深層学習の隆盛に思うこと

2010年代に入って、深層ニューラルネットワーク(DNN:Deep Neural Network)という技術がパターン認識、特に画像認識の分野で驚異的な性能を発揮することが立て続けに報告されました。

元々、ニューラルネットワークという認識技術は、人間の神経細胞間での電気信号の伝達の仕組みにヒントを得て、1950年代後半に考案された層状のネットワークモデルです。層間の重みパラメータの学習法として、誤差逆伝搬法(Backpropagation)が1980年代半ばに確立すると、大いに流行しました。しかし、認識性能を上げようとして層数を増やすと、学習が進まずに破綻しました。

その破綻要因を一つずつ丹念に解決して一人前以上に成長させたのが現在のDNNで、層数が100を超えるものもあります。何より驚くのが、訓練用データ(データサンプルとその正解ラベル)を大量に用意すれば、誤差逆伝搬法で学習を進めていくだけで、高性能の分類器が実現できることです。まさに、入力と出力を指定するだけで動く「エンドツーエンドの機械学習」が実現されたわけです。

ただ、分かったことは、「正解出力とDNNの出力の違いを最小化するための目的関数が、層間の重みパラメータで微分可能であれば、DNNは入力と正解出力との間の複雑な写像(マッピング)をいくらでも忠実に表現できる」ということにすぎません。すなわち、入力に対して人間が教師として正解出力を与えておくことが前提となります。

パターン認識技術の現在と将来に期待すること

パターン認識技術は、DNNの登場によって、まさに「入力と正解出力を与えればすぐに試せる」技術になりました。特に、画像認識の分野では、顔認識や表情分類、監視カメラ映像からの人物検出・追跡や不審行動の検知等の課題に対して、実証的な研究が盛んに行われています。ウィズ/アフターコロナ時代におけるソーシャルディスタンスの確保を前提とした「リモートワールド」において、人物行動の把握・理解に貢献できるでしょう。

パターン認識技術は人間の能力を超えられるか?この疑問に対する答えはYesとNoの2通りあると考えます。Yesであるのは、入力と正解出力のセットを大量に用意してDNNに学習させれば、人間と同等以上の判定能力が実現できる、という多くの実証があるからです。Noともいえる理由は、正解出力を用意できないような「どう判断してよいのか分からないパターン」に対して、現時点のパターン認識技術はお手上げだからです。

人間はそうした「不可解なパターン」に遭遇する度に、経験と知恵を働かせて対処してきました。現今のコロナ禍での右往左往も、最後には解決につながるはずです。パターン認識技術が、そうした人間の活動を本当に助けられる将来に期待しています。

(初出:広報誌『法政』2021年3月号)

情報科学部ディジタルメディア学科

若原 徹 / Wakahara Toru

1952年岐阜県岐阜市生まれ。東京大学大学院工学系研究科物理工学専攻修士課程修了。工学博士。NTTの研究所勤務を経て、2001年法政大学情報科学部に着任。文字・画像認識、パターン認識の研究に従事。変形耐性のある柔らかな画像マッチング技術の確立を目指している。主要論文に❝Affine-Invariant Recognition of Gray-Scale Characters Using Global Affine Transformation Correlation,❞ IEEE Trans.on PAMI.