AIは「理解」していない

未分類

2024.09.18

採録

「識別系AI」の精度が飛躍的に向上した
ディープラーニングが大きな話題になっていた当時のことを覚えている人は多いのではないでしょうか。そこで多くの人が驚いたのは、「識別系AI」の精度が飛躍的に向上したことでした。

識別系AIとは、その名の通り、提示された画像や映像を見分けるAIです。例えば、大量の猫の画像を取り込むことで、AIが自ら猫の特徴を学習し、新たに提示された画像が猫か否かを判断する、といったものです。こうした識別系AIの精度はすでに人間と同等やそれ以上になっています。

さらに、ディープラーニングをベースにして、問題を解いて正解に近付いたら得点（報酬）を与える「強化学習」を組み合わせることで、爆発的な強さを発揮するようになったのが「アルファ碁」です。アルファ碁は、2016年に韓国のイ・セドルに勝った翌年には、やはり世界トップレベルと言われた中国の棋士・柯潔と対戦し、3番勝負で全勝しています。

チェスについては、1997年に、IBMのコンピュータ「ディープ・ブルー」が当時の世界チャンピオンであるガルリ・カスパロフに勝利しています。しかし、囲碁はチェスよりもはるかに複雑で、コンピュータが人間に勝つのは難しいと言われていました。ところが、アルファ碁が勝利したことによって、ルールや目的が定まっている世界においては、AIが人間を超えた強さを誇ることが、また一つ示されたのです。

ディープラーニングを活用したAIは、ボードゲーム以外でも、多方面で大きなインパクトを与えています。

わかりやすい例は、胸部レントゲンの診断でしょう。肺に疾患があるのかどうかは、医師が胸部レントゲン写真を目で見る読影によって判断されてきました。当然、ベテランの医師ほど多くのレントゲン写真を見てきた経験の蓄積がありますから、読影スキルが高くなります。逆に、新人の医師が担当したために見落としていた症例もあったかもしれません。

しかし今では、大量の胸部レントゲン写真を読み込んで学習し、疾患の有無を熟練の医師とほぼ同じ精度で診断できるAIが出てきています。

胸部に限らず、臓器の画像をもとに治療方針を決定していく医療現場において、AIの目覚ましい進化は朗報です。医師が不要になるといった極端な話ではなく、医師の判断をサポートしてくれる有能なAIパートナーが増えていくと解釈すべきでしょう。

スマホやパソコンの顔認証も、認識を得意とするAIのおかげで一気に精度が高くなり、一般にも使えるようになってきました。

ユーザーインターフェースの広がりという意味では、Siriやアレクサ、グーグルアシスタントのような、私たちの日常にすっかり身近なツールとなった音声認識アシスタントもAIの得意とする分野です。「アレクサ、今日の天気は？」「野菜を使ったレシピを教えて」といった音声で指示を出すボイスコマンドを可能にしたのも、やはりAIです。

ただ、一見すると人間とAIで普通に会話ができているようにも聞こえますが、実際はAIが音声を文章に変換し、その文章に対して、学習した知識のなかから、できる限り文脈に合う答えを探し出し、それを返答しているものが多かったのです。

ChatGPTの基盤になっている「トランスフォーマー」とは
こうした識別系AIとは利用目的が異なる生成AIが進化した要因をたどると、生成AIに搭載されている大規模言語モデル、さらにはグーグルとトロント大学の研究者が発表した深層学習モデルであるトランスフォーマーに行き着きます。

ChatGPTの基盤となっているのは、トランスフォーマーというモデルです。トランスフォーマーは、2017年、グーグルとトロント大学の研究者たちが共同で発表した「Attention Is All You Need」という論文で発表されました。

ディープラーニングにもさまざまなモデルがあり、それまでよく活用されていたのは「畳み込みニューラルネットワーク」や「再帰型ニューラルネットワーク」というものだったのですが、トランスフォーマーは、より連続したデータの関係を追跡することで意味を学習するものです。

このトランスフォーマーをベースにした大規模言語モデルで自然言語を処理することで、それまでのように画一的な回答しか返せないチャットボットではなく、より会話の流れや文脈を踏まえた上での受け答えが可能な対話型AIが誕生したのです。

トランスフォーマーの登場は、対話型AIだけでなく、画像生成AIなど、テキストで指示を入力する他の生成AIの飛躍的な進化ももたらしました。自然言語と画像という異なる領域をどちらも進化させることもあり、「マルチモーダル（多領域）化」が進んでいると言う人もいます。ある見方をすると、1ついいモデルを作ると、どの領域でも一気に先端に躍り出ることが可能になりやすくなったとも言えるでしょう。

生成AIは「理解」しているわけではない
ChatGPTは人間と自然な会話ができているように見えますが、見えるだけであって、会話の意味は理解していません。AIは人間の言うこと、することの意味を理解できるかというと、理解せずにオウム返しをしているだけと言えます。

この問いは、「理解」の定義とは何か、「知能」とは何なのかという問いにもつながるのですが、「チューリングテスト」や「中国語の部屋」という有名な思考実験があるので、触れておきたいと思います。

1950年、イギリスの数学者であるアラン・チューリングが、「機械は人間のように思考できるのか？＝知能はあるのか？」を判断するための思考実験を提唱しました。

人間の審査員の前に2台のディスプレイを用意します。そして、ディスプレイを通して質問を投げかけ、回答を受け取るというやり取りを繰り返します。実は、1台のディスプレイの向こうには人間がいるのですが、もう1台の向こうにいるのは人間を真似するように作られた機械です。

やり取りを終えた後で、審査員が人間と機械を区別することができなければ、その機械は「人間並みの知能を持っている」と判断する。これがチューリングテストです。

この判断は妥当なものでしょうか？代表的な反論が、アメリカの哲学者ジョン・サールが提唱した「中国語の部屋」と呼ばれる思考実験です。

英語は理解できるが、中国語はわからない人間が、ある部屋にいます。その部屋には、「こういう文字列に対しては、こういう文字列を返せ」という完璧なマニュアルがあります。その部屋に中国語で書いた質問を入れると、なかにいる人は、意味はまったくわからないものの、マニュアルに従って、中国語で書いた回答を返します。これを部屋の外から見れば、「部屋のなかには中国語が理解できる人がいる」と解釈するでしょう。

つまり、やり取りができるからといって理解しているわけではないという、チューリングテストへの反論です。

生成AIは「中国語の部屋」と近い性質を持っています。生成AIは、確率に基づいて、それらしい言葉を順番に並べることで文章を生成しているだけです。

本当に何もない無の状態から新しいアイデアを創造することは、AIにはまだできていません。いくらディープラーニングが人間の脳の仕組みを真似し、計算や認識などいくつかの分野で人間より得意なものが出てきているとはいえ、全領域でAIが人間を超えるシンギュラリティ（技術的特異点）を煽るのは、煽ることによって得をする批評家やメディアたちでしょう。ビジネスなど実務に携わる人たちは地に足がついた理解をしなければなりません。

生成AIはこれからも進化していき、間違った回答をしたりすることも減っていくでしょう。しかしそれでも、非常に優秀なアシスタントにはなっても、人間に代わる存在になると考えるのは時期尚早です。

－－－－

でも、理解するとは？