ChatGPTが発表されて以降、どのような計算によって、生成が可能となるのか、その仕組みを説明する情報はありふれている。その嚆矢となったのはスティーブン・ウルフラムによる、次の記事だっただろう。
大量のテキストを学習したうえで、入力されたテキストに関連するトークンを予測する。そのためのアイデアや数式についての解説は聞き飽きた。特にその学習方法やアイデアの本質、その狙いについての説明を聞きたかった。それは、例えば次のような具合だ。
アプローチ
演繹 | 公理、普遍的事実、法則から個別事象を導く |
帰納 | 個別事象、観測をもとに普遍的事実、法則を導く 機械学習 |
演繹+帰納 | 大規模言語モデル |
有限のデータから無限の未知データを処理できる可能性
- 学習データから法則、ルールを導く
- 獲得した法則、ルールから未知のデータを予測する
- 破滅的忘却を防ぐために、繰り返し同じデータを参照する必要性
モデル・サイズの拡大→記憶容量の拡大→人も備えていない新しい手法
PFNの共同設立者であり、自然言語学者でもある著者による本書『大規模言語モデルは新たな知能か』は、このような事柄を裏付けとともに解説してくれる、私にとっては願ったりの内容だった。
そして、期待を超えていたのが著者によるコラム、仮説だった。ありふれた情報に接しているうちに、私の中で漠然と芽生えてきたアイデア、確率モデル、自己啓発などとの関連性だ。その想起は、必ずしも的外れなものではなかったと感じられた。
確率分布としての言語モデル
ありふれた情報に接しているうちに芽生えてきたアイデアの一つが、確率による文章生成だった。つまり、後続する文字列(トークン)の予測モデルによって、トークンに対して確率が割り当てられ、それに基づいて文が生成されるのであれば、つまり予測モデル=確率分布によって文が生成されるということではないか、ということだ。これに関連する事柄について、著者は次のように語っている。
意味を捨てたが、次の単語を予測できるように学習すると、文章の中から予測に役立つ情報を扱えるようになる必要に駆られ、結果として文を理解できるモデルができる
「意味を捨てる」とは、情報理論でいうところの、情報の抽象化だ。情報の意味を無くし、事象が起こる確率から情報量を定義するのだ。この情報を文字列と解釈すれば、文字列の出現確率が情報量となる。そして、この確率分布が後続文字列の予測モデルということになる。
これと似たようなことをしているのが、データの圧縮、符号化だ。
- データを生成しているだろう確率分布を推定する
- 確率分布を使ってデータを符号化する→データの圧縮
- 推定確率分布が真の確率分布に近いほど、圧縮率は高い
これを先の後続文字列の予測モデルに当てはめ、著者は次のように語る。
言語モデルは言語データを最も圧縮できるモデル
こういうことが私は知りたかったのだ。そして巷の解説、説明には、このような事柄に触れてほしかったのだ。予期せず、本書は期待に応えてくれた。
さらに予期せぬ偶然の巡り合わせが、ChatLZMAだった。以下の投稿は、まさにこの話題に通じているのだ。
プロンプトエンジニアリングを自己啓発の類似
ChatGPTの発表以降、関連して盛り上がっている話題がプロンプト・エンジニアリングだ。生成AIに入力するプロンプトを工夫することで、期待通りの出力を得る技法だ。そのTipsの一つが、生成AIの役割を明示することだった。「あなたは金融の専門家です。~を要約してください」「優秀なIT部門スタッフとして~してください」といった具合だ。
これが想起させたのが、自己啓発、鬱、ひきこもりとの関連だった。そしてやはり、それに通じる事柄を著者も感じているのだ。具体的には、
人も「成功する」「できる」と繰り返し唱えたり思い続けていると成功したり、その逆に「失敗するかも」「自分はできない」と繰り返し思い続けていると、失敗したり、できなくなったりするという話があるが、本文中学習と同じような現象が人にも起こっているのかもしれない。こうした言葉を話している、もしくは頭の中で考えている間に、無意識化で頭の中で勝手に発生した予測と実際の観測(できる、できない)とのずれをもとにフィードバックがなされ、内部状態が変わるといったことが起こっているかもしれないのだ。
「本文中学習」とは、本題の前に類題を解かせると、本題の解決能力が改善するような、生成AIが処理中に、あたかもモデルのパラメータを変化させたようにモデルを適応させることを指している。
これは十分にあり得る、と私は考えている。例えば自己啓発、特に成功セミナーの典型的な手口が、理想の自分を具体的にイメージして、そのようにふるまう、それになり切る、ということだ。あたかも自分自身に対して「あなたは○○です」「○○として~してください」とプロンプトを投入し、そのモデルに適応させようとしているように見えないだろうか。私には、そのような行為を通じて、脳内の内部状態をあからさまに変化させようとしているように見える。
そして鬱や、ひきこもりだ。例えば、小さな「拒否」が繰り返されることで、それが「大きな疎外」となり、「ひきこもり問題」に通じる、という記事がある。
また新卒採用や再就職などで「お祈り」を繰り返し受け取ることで、うつ傾向が認められるようになる、といった話題など、まさにRLHF (Reinforcement Learning from Human Feedback):人間のフィードバックによる強化学習そのものだと思うのだ。つまり不特定多数から特定個人に対するネガティブ・ラベリングの繰り返しだ。それによって脳内の内部状態が変化し、その結果が鬱や、ひきこもりなのではないか、と思うのだ。
hillbig.github.io