生成AIで、調べ物ができるのはこれまでの技術の延長として分かるが、文章を要約したりできるのは、文章の内容を「理解」しているのではないかとの疑問があった。たしかに不思議である。AIは解説によれば、文章のつながりがあったとして、その次にどんな言葉があるか、大量のデータを処理して、確率的に肩い言葉をつなげているだけだというから、驚く。
例えば、非常に多次元のベクトル空間があって、言葉が一つ現れるごとに、ベクトルを作って、前の言葉のベクトルの終点から、ベクトルを一つ描く、そうするとどんどん形が出来上がっていき、だんだんひとまとまりの形を形成する。
要約するには、その形の外側というか、表面のいくつかの点を結ぶ図形を考えて、それをなぞるように、いくつものベクトルを描けばよい。2万字を3000字で要約と言えば、3000個のベクトルを用意して、なるべく図形の特徴を保存するようにつなげればいい。これは圧縮方式だろう。
顔認識システムなども、図形の特徴抽出をしている点で、要約と似ている。
また、投影もできる。N次元の図形であれば、それを(N-1)次元にすればかなり圧縮できる。それも一応、要約と言えるだろう。要求があれば、どんどん次元を低くすればよい。
最小二乗法で直線を探したりするのも、一種の要約である。そういうことなら、要約を作る計算が成立する。