最近のAIの進歩は著しいが、心配もある。
問題はデータベースに何を入れるかである。
個人的見解としては、検定済み高校の教科書とか大学の教科書などをデータとして使ってくれれば一番安定していると思うのだが、そうもいかないとして、どの範囲まで拡大するかが問題である。
拡大するほど、ゴミが多くなる。数多くコピー・ペーストされた情報が、優先されることになるのだろう。
数ではなく、論理構造とか、美しさとかを基準とすることは難しいだろう。そしてそれは間違うかもしれないので、個人的な好みとしておくしかない。
もちろん、文科省検定済み教科書としても、危険はあるわけだが、それはそれで、危険を承知で、データベースとして使えばよい。
たぶん、将来は、アカデミックな世界でのデータ、商業主義的世界のデータ、大衆雑誌とか大衆SNS的領域のデータ、などなど、どのような領域の知識を参考にしたいのか、指定できるようになればいい。
人気のある理論と、美しい理論は違う。少数有力意見もあるし、多数派の平明な理論もある。
現在も、文章の使用目的や筆者の立場などを指定すれば、それに似たことはできるけれども、データが大きくなると処理も大変で、そんなことをしていたら、電力消費量が大きくなってしまう。
雑誌記事に何が書いてあるかなんてどうでもよいので、教科書的な知識をまとめてほしいとかの要望もあるだろう。検定済み教科書は面白くないし、すでに承知しているので、もっと多彩な意見が知りたいという要望もあるだろう。また、もっと極端に、境界知能領域まで調査範囲を広げて、どんな意見が多いのか知りたいという場合もあるだろう。商品説明書とかカタログとかを調査してほしい場合もありそうだ。それぞれの場合に領域を指定して、データの規模を小さくしても問題ないし、むしろ有用なのではないだろうか。
調べたいのは、少数派ではあるが、論理的で、美しくて、そんな意見としてはどんなのがあるかなというくらいだろうか、個人的にはそう思う。