言語空間または意味空間
単語を多次元からなる言語空間の中のベクトルとして考える。現在の生成AIで行っているのは、多数の文章を事前に読み込んでおいて、標準言語空間とでも言うべきものを作り出し、そのベクトル空間の中で操作して、次の単語として可能性の高いものを選択してゆく。
この理解が正しいとすれば、事前にどのような文章を読み込んでおくかが重要になる。
たとえば、オックスフォード大学教員の書いた文章だけを読み込むとか。日本なら文部省検定教科書の文章の筆者を読み込むとか。あるいは、新聞、大手出版社の編集部の手になるものを読み込むとか。
データとして読み込む文章の範囲を拡大すれば、おのずとジャンクなものが多くなるのはやむを得ないだろう。範囲を拡大すれば、レベルが低下する。どのレベルのものを標準言語空間とするかは難しい問題だろう。
昔提案したことだが、当時はワープロのソフトの辞書はネットにつながっていなかったので、時間が経つにつれて個人的なものになってゆくはずであり、その辞書の解析をして、どの単語とどの単語がどの程度近いかを測定できるはずだ。
そのようにして単語空間を考えれば、個人によって異なるものになるはずである。それが個人の意味のシステムとかイメージのシステムを構成する。
たとえば蛇がどのようなものであるか、意味付けが異なる。夢で蛇を見たとして、その蛇はどんな意味を持っているのだろうかと考えるとき、この個人的言語空間を前提に考えることが必要である。
個人による変動を超えて、民族に共有される意味空間とか、宗教によって規定される意味空間とかが想定される。ユングの集合的無意識などはこのようなものだ。だから夢の意味を考えるときは、個人的意味空間と集合的意味空間を考える必要がある。
このように考えた時、具体的に意味空間でどのような演算をすればよいかまでは考えつかなかった。それが現在は実現できている。実際は意味を測定しているのではなくて、先行する単語の連なりをインプットして、次の単語の妥当らしい出現頻度を計算する。統計的な確率を計算している。しかしそれが意味についての統計的データとなるらしい。
結果としては素晴らしく高性能な言語マシンとなっている。しかしたとえば平安時代の仮名文学の現代語への翻訳などを考えると、データが少ないので、精度は悪くなる。