チューリングテストは、たとえば現在の生成AIでチャットをしているとき、相手はaiなのか人間なのか、どのように区別することができるだろうかというような問題。チューリングは、判定する厳密な方法はなく、ただ人間があれこれ話してみてどう感じるかを総合判断するしかない、みたいなことを考えたらしい(と私は思った)。
我々は現在、人工知能と話していて、ほぼ違和感なく人間と同等だと感じるときもあれば、これはやっぱり人間ではないと感じるときもある。同じ場面を経験したとして、経験しているこちら側の人間が異なれば、ネット回線の向こうにいるのが人間なのかaiなのか、判断が違うこともあるだろう。
現在ではそっくり人間の形をして人間のように生活するaiは存在していないだろうから(一応、公式には存在しないだろう)、普段出会う人に対して、この人は本当は人工知能だろうかと疑うことはないだろう。
しかし、たとえばコールセンターに電話をして何か話すとき、相手は人工知能かもしれないという程度までは思うようになっている。
また、電話案内で、何の御用の方は#1を・・・などと言われて絶望的にイライラする場合、すぐにでも、aiが人間らしい相手役を実行できそうである。
つまり、ここでは、ネット回線の向こうにいて、キーボードを打っているのが、aiなのか人間なのか、区別ができなければ、実質として、意識も個性も持ち間違いもする人間と同等だと判断するだろうというわけだ。意識とか人間とかの定義にかかわる問題となるようだ。
その場合、私が個人的に重要だと思うのは、ネットの向こうにいる存在がaiなのか人間なのかを判定するための「客観的診断基準」がないことだ。あくまで人間が、挨拶したり、質問したり、冗談を言ったりして、向こうにいるのが人間であるかどうかを総合判定するしかないという点である。
逆に発展させて、二つの存在がネットを介して、チャットしているとする。お互いがお互いを、相手はaiなのか人間なのかを推定する。この推定は、aiにはできないだろうというのが重要な点である。
もしその推論ができるなら、あらかじめ、それらの基準をクリアして、人間同等とみなされるようにふるまえばよいのだから。
人間には、相手が人間かaiか、感じることはできる(のではないかと言われてきた。現在ではそんなのは怪しいと思うけれども)。人間の判断だから間違うことがあってもいい。aiは相手が人間なのかaiなのか、感じることはおそらくできない(相手が人間であるか否かの推論も、もうすぐ大規模言語モデルで解決できそうな気もする。何しろ、たくさんデータを読み込んで、次の単語はどれかを確立順にあげて、文章を作れば、自然言語になってしまうという実に不思議なことが起きている。人間の脳に内在する思考回路はたぶんこれとは違うものだと思うけれども、結果として、素晴らしく優秀な知能が発生している。まあ、既存の知識を組み合わせたり、要約したりすることが得意であって、アインシュタインのような発見ができるのかといえば、まだ無理だと思うが、なんだかんだ言って、時間の問題のような気がする。人類の進化よりもずっと速い。)。
まあ、そんなことを考えていたら、客観的な診断基準がないのに「人間だけが診断できる」という話が昔あったことを思い出した。
「プレコックス・ゲフュール」というもので、精神科医なら研修医の段階で学習する。
「プレコックス感」とはなにか
「シゾフレニーに相対したとき観察者のうちに起こる『一種言いようのない特有な感情』で、オランダのリュムケが1941年ごろ作り出した概念。プレコックスとは、シゾフレニーの前の名称「早発性痴呆」(ディメンシア・プレコックス)からとったものである。しかし、シゾフレニーの個々の症状から発生して観察者が感じる感情ではなく、あくまで患者とまわりの世界との関係の独特の様式から由来する感情ないし体験であり、そのかぎりで観察者の主観的な判断に属するが、専門家ばかりでなく一般の人たちも体験しうる普遍的な感情ともいえる。リュムケは最初これを真のシゾフレニーに必ず付随すると考え、その他の仮性分裂病から区別する診断的標識とさえみなしたが、のちに、自分自身の臨床経験からプレコックス感を病勢に応じて消長する可逆的な感情と考え直すようになった。」
このような主観的な診断基準が成立するはずはないと考えるでしょうが、まあ、実際そうなんですが、しかし、われわれ人間の感じて判断していることの全部が言葉で表現できるわけではないでしょう。「独特なある種の感じ」としか言えないようなものを、人間の脳ならば、広く共有できるとすれば、それは現在のaiにはできないことでしょう。文章になっていて、あるいは画像や動画や音楽になっていて、学習できなければ、確率計算ができないですから。あるいは論理的な推論でもないでしょうから難しい。その先の話として、人間の脳に共有されている何かならば、機械学習・深層学習によって学習できるかもしれないですが。そのためには、人間の言語活動や視覚聴覚だけではなく、もっと膨大な情報を集めて処理することが必要になるでしょう。でも、脳がやっていることだから、いずれはaiにもできるかもしれないとは思いますが。
しかし現状ではプレコックス・ゲフュールによる診断をaiが行うことはできないだろう。精神科病院で10年くらい修行する必要がある。人間型のaiが目を持ち耳をもって、10年の時間を精神科病院で過ごしたら、プレコックス・ゲフュールを共有することになるのかもしれない。学習の領域がまだ狭いだけなのだろうとも思う。
そんなことと、チューリングテストが類似していると思った。
そのうち学生実習用にシゾフレニー・マシンが登場するだろうけれども、それは単にシゾフレニーのいろいろな診断基準を学習しているだけではなく、プレコックス・ゲフュールを学生に感じさせるものになるかどうか。たぶんなるだろうけれども、いつ頃なるだろうか。
本来の話に戻ると、相手の脳の状態を理解するには簡単な判定テストでは無理で、判定者の脳が全能力を終結する必要がある。
相手の脳もこちらと同程度に複雑なシステムなのだから、簡単なチェックリストで理解できることは部分でしかない。全体的な何かを感じ取るには、脳が全体を働かせないとできない。
現状ではaiは脳の一部分の機能の拡大であるから、プレコックス・ゲフュールを感じることはできないし、ネットの向こうにいる存在が人間なのかaiなのか判定することもできない。現状では確率計算ロボットですから。
しかしそれにしてはai異常なほどに役に立つというのが感想である。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
(参考)
チューリングテスト(Turing test)とは、機械(人工知能)の能力が、人間の「知的活動」と同等であるか、またはそれと区別がつかない程度かを確かめるためのテストである。 もっと簡単に言えば、人工知能が人間を模倣し、それに人間が気付かないかをテストすることだ。
1936年、哲学者のアルフレッド・エイヤーは、他者の心(英語版)に関して、「他者が自分と同様の意識体験を持っているとなぜ分かるのか」という有名な哲学的疑問を検討した。エイヤーは、『言語・真理・論理』の中で、意識を持つ人間と意識を持たない機械を区別する方法を以下のように提案している。「私にとって、意識を持っているように見える対象が、本当は意識をもつ存在ではなく、単なるダミーや機械であると判断する根拠は、意識の有無を判定するための経験的なテスト(empirical tests)のどれかに失格した、ということしかない[4] 」この意見は、チューリング・テストにとてもよく似ているが、チューリングがエイヤーによるこの哲学上の古典の内容を知っていたかどうかは定かでない。
哲学上の背景
1956年に生まれた人工知能の分野[3] は、哲学的にかなり根が深い問題であった。機械は思考できるのかという問題には長い歴史の末に、心に関する二元論と唯物論にはっきりと分けられていた。二元論の立場からすれば、心は形而上の(もしくは少なくとも形而上の性質を持っている[注釈 3])存在であり、したがって単に物理的な文脈では説明できないことになる。一方、唯物論の立場からすれば、心は物理的に説明できることから、心を人工的に作りだせる可能性はあることになる[注釈 4]。
1936年、哲学者のアルフレッド・エイヤーは、他者の心(英語版)に関して、「他者が自分と同様の意識体験を持っているとなぜ分かるのか」という有名な哲学的疑問を検討した。エイヤーは、『言語・真理・論理』の中で、意識を持つ人間と意識を持たない機械を区別する方法を以下のように提案している。「私にとって、意識を持っているように見える対象が、本当は意識をもつ存在ではなく、単なるダミーや機械であると判断する根拠は、意識の有無を判定するための経験的なテスト(empirical tests)のどれかに失格した、ということしかない[4] 」この意見は、チューリング・テストにとてもよく似ているが、チューリングがエイヤーによるこの哲学上の古典の内容を知っていたかどうかは定かでない。
チューリング
イギリスの研究者たちは、AI研究という分野が確立する1956年より10年ほど前から「機械の知性」を研究していた。これはレイショウ・クラブ(英語版)のメンバーの共通のトピックであった。レイショウ・クラブは、イギリスのサイバネティクス・電子工学研究者による非公式の研究者グループであり、チューリングテストの名前の由来であるアラン・チューリングもメンバーの一人だった[5]。
特にチューリングは、少なくとも1941年から機械の知性の概念に取り組んでおり[6]、1947年に「コンピュータの知性(computer intelligence)」について触れているのは、知られている限りで最も早い[7]。論文『知性を持つ機械』(Intelligent Machinery)の中で、チューリングは「機械に知性を持ったふるまいができるかどうかという問題[8]」 について検討しており、この中で後に発表するチューリングテストの先駆けとも思われる提案をしている。
チェスでなかなかいい試合をするペーパー・マシーンを作るのは難しくない[注釈 5]。さて、実験の被験者としてA、B、Cの三人を用意しよう。AとCはチェスがあまり上手くない。Bはペーパー・マシーンのオペレーターである。……手を伝えるための仕掛けを施した二つの部屋を使う。そしてC対AもしくはC対ペーパー・マシーンでゲームを行う。Cは自分の相手がどちらなのか、なかなか分からないかもしれない。
このように、チューリングは論文『計算する機械と知性』(Computing Machinery and Intelligence)を発表する以前から、数年間人工知能の可能性を検討していたのである。とはいえ、発表された論文[注釈 6] で、この概念のみに焦点を当てたのは、『計算する機械と知性』が最初である。
チューリングは、1950年の論文『計算する機械と知性』を「私は、『機械は思考できるか』という問題の検討を提案する」という主張で始めている[9]。チューリングが強調しているように、このような問題への伝統的なアプローチは、「機械」と「知性」の定義から入ることである。だが、チューリングはあえてそうせず、代わりに問題を「緊密に関係しており、比較的厳密な言葉で表現されている」新しい問題に転換した[9]。つまり、チューリングの提案は、「機械は思考できるか」という問題を「機械は我々が(考える存在として)できることをできるか[10] 」に換えることであった。チューリングの主張するこの新しい問題の利点は「人間の、物理的な能力(capacity)と知的な能力の間の、公平で厳しい境界線」を引く、ということであった。
この方法を説明するために、チューリングは、「模倣ゲーム」というテストを提案している。模倣ゲームとは、本来、男性と女性が別々の部屋に入り、ゲストはいくつかの質問を書き、それに対するタイプ打ちの回答を読んで、どちらが男性でどちらが女性か当てるというゲームである。このゲーム中の男性は、ゲストに女性と思わせるのが目的となる。チューリングは、以下のように作り直した模倣ゲームを提案している。
ここで問題だが、「このゲームにおけるAの役を、機械がやったらどうなるだろうか」質問者は、男性と女性でゲームを行ったときと同じくらいの頻度で、間違った判断をするだろうか。この問題が、元々の「機械は思考できるか」という問題を代替するのである[11]。
論文の後部で、チューリングは、二者間で行う「同じ」図式を提案しており、ここでは質問者はコンピュータか人間の、どちらかとだけ会話する[12]。このどちらの図式も、現在一般に知られているチューリングテストと正確には一致しない。チューリングは1952年に3つめの図式を提唱している。この、チューリングがBBCのラジオ放送で語ったバージョンでは、審査員はコンピューターにいくつか質問をする。コンピューターの役割は、審査員たちの多くを本物の人間(man)[注釈 7] と信じ込ませることである[13]。
チューリングの論文では、9つの反論が想定されており、論文が初めて発表されてから出された、人工知能に関する主要な議論がこの中にすべて含まれている[14][注釈 8]。
ELIZAは、ユーザーが打ったコメントからキーワードを探し出して動作する。キーワードが見つかれば、ユーザーのコメントを変換するルールが適用され、その結果の文章が返される。キーワードが見つからなければ、ELIZAは一般的な返事をするか、もしくは前に行った言葉を繰り返す[16]。さらに、ワイゼンバウムは来談者中心療法のセラピストのふるまいを真似るようにELIZAを作った。つまりELIZAを「実世界のことをほとんど何も知らないかのようにふるまえる」ようにしたのである[17]。これらのテクニックにより、ワイゼンバウムのプログラムはいくらかの人を騙し、実際の人間としゃべっていると思わせることができたのである。「ELIZAが人間『じゃない』なんて……とても納得できない」という被験者もいた[17]。このように、ELIZAはチューリングテストを通過できるプログラムの(おそらく最初の)一つであることが多くの人によって主張された。
コルビーのPARRYは「感情傾向(attitude)のあるELIZA」と呼ばれた[18]。PARRYはワイゼンバウムと(高度ではあるかもしれないが)同様の手法を使って偏執性統合失調症のふるまいを再現するよう試みたものである。研究を実証するため、PARRYは1970年代初期にチューリングテストのバリエーション試験を受けた。まずテレタイプ端末を通して、経験豊富な精神科医に、本物の患者とPARRYが動作するコンピュータの精神分析をさせた。次に別の精神科医のグループ33人に、この会話記録を見せる。そして、この二つのグループにどちらの「患者」が人間でどちらがプログラムか判別させた[19]。この実験では、正しく判別できた精神科医は48パーセントだった。当てずっぽうで決めたのと同様の数字である[20]。
ELIZAもPARRYも、厳密なチューリングテストを通過できたというわけではないが、ELIZA・PARRY、そして同様のソフトウェアは、チューリングテストを通過できるようなソフトウェアが作られる可能性を示唆している。さらに重要なのは、そのチューリングテストを通過できるソフトウェアに含まれるのは、データベースと単純なルールの適用だけ、ということもありうることだ。
ジョン・サールは、1980年の論文『心・脳・プログラム』(Minds, Brains, and Programs)の中でチューリングテストに対する反論を提出した。これは「中国語の部屋」として知られる思考実験である。サールは、単に理解していない記号を処理しているだけでも(ELIZAのような)ソフトはチューリングテストに合格できると述べた。理解していないのならば、人間がやっているのと同じ意味で「思考」しているとはいえないということだ。したがって、チューリングのもともとの提案とは逆に、チューリングテストは機械が思考できるということを証明するものではないとサールは結論している[21]。
サールその他の心の哲学の研究者が提出した議論は、知性の本質、知性を持った機械の可能性、チューリングテストの価値についての、1980年代・1990年代を通しての激しい議論の火種となった[22]。
チューリングテストはまた、対象のふるまいのみを試すという点で明らかに行動主義・機能主義である。チューリングテストに合格する機械が人間の会話上の振る舞いをシミュレートできるのは、ただ巧妙に作られたルールに沿っているだけだから、ということもありうる。この文脈における有名な反論は、ジョン・サールの中国語の部屋と、ネド・ブロックのブロックヘッドの二つがある。
知性の作業定義としてチューリングテストが有効であったとしても、チューリングテストによって機械に意識(consciousness)や自主性(intentionality)があるかを測れるとは限らない。たとえば知性と意識がそれぞれ別個の概念だったとしたら、チューリングテストは知性のある機械と知性のある人間との間にある、鍵となる相違を見いだせないということもありうる。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ウォズニアック・テスト(英: Wozniak test)もしくはミスター・コーヒー・テスト(英: Mr. coffee test)
ある機械が汎用人工知能であるかを判定するためのテスト。
チューリングテストの代替であるとしている[1]。
方法
初めて入る(=間取りなどを一切知らない)他人の家に上がり、その家の主人にコーヒーを淹れてあげられるか否かを試す。もしコーヒーを淹れられないなら、弱いAI (Narrow AI) と見なされる[2]。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー