論文『Decoding Intentions』、「Private Sector Signaling」の翻訳

OpenAIの内紛*1において、その発端となったとされるのが論文『Decoding Intentions』だ。

cset.georgetown.edu

しかし、その論文が主張するところ、論文そのものに問題があるわけではない。論文は３つの事例に基づいて、「costly signal」（訳出の詳細について後述）をキーワードに、意図を読み解くこと、伝えることを論じている。この事例の一つが論文のP27～30に掲載されている「Private Sector Signaling」だ。

Sam Altmanは、ここで言及されていることがAnthropic社に好意的であり、OpenAIに批判的である、と解釈した。これをきっかけに、OpenAI取締役会のメンバーであり、論文共著者の一人でもあるHelen Tonerとの衝突が生じ、Ilya Sutskever*2はToner側に立った、という経緯があったようだ。

一通り目を通してみると、OpenAIはChatGPTのリリースに際して手抜きをし、Anthropicは慎重にリリースを遅らせたように読める。
しかし、論文の結論が示す様に、それは偶然の影響による結果かもしれない。OpenAIは、GPT-4システムカードを公開したのに、ChatGPTのリリースが目立ちすぎてしまった。一方、Ahtorpicにしても、安全性に関する言及が情報に埋もれ、注目されなかった可能性もある。

Sam Altmanの解任劇に通じるほどの話題か？と思うところだが、当人たちにとっては大問題だったのだろう。

この投稿で紹介しているのは、その「Private Sector Signaling」の翻訳だ。この論文の内容は、CISAやCISMホルダーのような内部監査、統制、セキュリティ関係者の職務に合致している。特にAI関連の対応を日常業務へ取り入れるに際し、どのような活動に目を向ければよいのか、の参考になる。
この観点から、あまりエンジニア向きの内容ではないことを、事前に申し添えておく。

注意
翻訳
- Private Sector Signaling

注意

Costly signal

論文には「costly signal」という表現が頻繁に登場する。この訳出について、先日の翻訳で触れている。翻訳を読み進めるなら、事前に参照しておいてほしい。

impsbl.hatenablog.jp

4種類の意思表示

論文では4種類の「costly signal」に言及されている。

Tying hands
Sunk costs
Installment costs
Reducible costs

これらの訳出についても、やはり先日の翻訳で触れている。翻訳を読み進めるなら、事前に参照しておいてほしい。

impsbl.hatenablog.jp

race to the bottom

「race to the bottom」という表現が頻出する。これは市場を取ることを優先して、安全性や品質を犠牲にするトレードオフ戦略を、多くの市場参加者が採用することで、市場に低品質な製品があるれる結果につながるような競争を指している。
一般的に「底辺競争」、あるいは「底辺への競争」と表現されており、この翻訳でも、それに倣っている。

ja.wikipedia.org

GPT-4システムカード

「GPT-4 System Card」という表現が頻出する。これは論文『GPT-4 Technical Report』*3のAppendixに掲載されている、GPT-4の安全性に関する検証と、その結果だ。既に抄訳、翻訳が存在する。

qiita.com
www.marulabo.net

翻訳

Private Sector Signaling

現代において特徴的なのは、20世紀とは大きく異なり、戦略技術はもはや政府が運営、資金供給する研究所で開発されるものではないことです。AIも例外ではなく、最も先進的なシステムの多くが、一般消費者向けのテック企業によって開発されています。技術開発の中心的役割を交替したことで、官民部門間の相互に関わり合い、参加者たちは互いに意思表示するのです。自律型殺傷兵器と民主的AIの事例が示すように、AIの開発、利用の先行きを予測しようとする者は、政府だけでなく、民間企業の意思表示にも注意を向けなければなりません。主要プラットフォーマーがウクライナへ寄与している様に、欠かすことのできない役割、サービスに対する民間企業の寄与は、ますます高まっています。

国家安全保障における民間企業の役目が拡大するにつれ、地政学的緊張最中での、意思表示に伴う複雑性、誤認と誤算を妨げることの難しさを浮き彫りにします。ビジネス領域において、どのように意思表示され、作用するのかをよく理解する事例を２つ紹介します。安全に、責任ある技術開発について意思表示する企業の話題です。最初の事例では、意思表示の仕組みとしての自主規制と相殺可能な代償が果たす役割に検証します。次に、安定して機能しない可能性のある機能をリリースする目的を伝え、それに伴う規範を強化するために、後払いの代償を用いる方法を探ります。

長年、AI開発に携わる研究者の間で懸念されていることの一つが「底辺への競争」です。そのような環境において、優位性を確保するために、参加者は安全性やセキュリティ上の課題を疎かにしたくなります。参加者たちは競争力を保つために、安全性やセキュリティ上の課題を顧みないのです。このような状況を左右するのが参加者たちの見解であり、それゆえに意思表示も重要です。多くの参加者は、AIシステムの信頼性確保に時間を費やすところ、一番乗りしたい、市場参入が迫っている、ライバルに出し抜かれる、といった思惑が、彼らの焦燥を募らせます。従って、意思表示が、底辺への競争を押しとどめる重要な役割を担います。AI開発の当事者たちは、自制的であること、安全で信頼できるシステム開発に注力すること、その両方に重きを置くことができるのではないでしょうか。これらについて信頼できる意思表示が、あらゆる事柄に注意が払われていることによって、他の関係者を安心させ、底辺への競争を押しとどめるのです。

この懸念から、多くの企業がAIについて警鐘を鳴らしています。主要テック企業の最高指導者たちが強調するのは、安全で信頼に足るシステムを構築することです。Microsoft社長、Brad Smithは「安全で信頼できる方法でAIを開発、展開することを、企業として約束する」と発言し、Google CEOのSundar Pichaiは「安全確認には時間をかけており、肝に銘じて継続する」と表明しました。先に説明した公約と同じく、このような広義の声明は、代償伴う意思表示の一形態です。

民間企業による代償を伴う意思表示をより深く理解するために、責任あるAI開発を標榜し、その枠を超えようとする先端AI企業についての2つの事例を検討してみる価値があります。リリースに伴いGPT-4システムカードを公開したOpenAI、そしてチャットボットClaudeの公開を遅らせる決断をしたAnthropicの事例です。どちらも、2022年11月、OpenAIがChatGPTを公開したことで一躍脚光を浴びるAIシステムのような、大規模言語モデル（訳中：以下LLM）を開発する企業です。LLMが独特なのは、多くのAIシステムとは異なり、それが汎用的に機能することです。それはテキストに続く言葉を予測するよう設計されており、翻訳、プログラミング、要約、詩作といった様々な作業に有用であると実証されています。LLMは万能で便利ですが、それがもたらすリスクを理解し、解消することを難しくもしています。情報をでっち上げ、偏見をまき散らし、暴力的コンテンツを生成し、危険な活動を容易にするのです。

2023年3月、カリフォルニアを拠点とするOpenAIは、同社の最新LLMを公開しました。GPT-4（GPTとは“generative pre-trained transformer”の略称です。LLMがどのように生成されたかを表しています。）と名付けられた新モデルは、様々なタスクに渡って優れた性能を披露しました。LLMの言語理解度を試す性能指標において、新記録を樹立してもいます。GPT-4公開において、意思表示の観点から最も興味深いのは、諸々の性能を紹介した技術レポートではなく、システムカードと呼ばれる60ページの資料でした。モデルが孕む安全上の課題、OpenAIがモデル公開前に実施した緩和策を説明しているのです。

OpenAIはGPT-4を安全に公開することを念頭に置きました。その諸々の代償を、システムカードは示しています。システムカード制作に伴う時間的、金銭的な代償だけでなく、OpenAIは、モデルによる好ましからざる振舞いを懸念しており、それを詳らかにすることで評判を落とすかもしれない、という代償もあります。初期バージョンのGPT-4開発から、最終的なリリースまでに、安全研究とリスク評価の繰り返しに6か月を費やしたことに、文書は触れています。同社の研究員は、この期間で、モデルを広範にテスト、評価しました。外部の専門家を招き、安全上のリスクがある機能をテストするのです。サイバー攻撃を実行したり、化学兵器、生物兵器を製造したり、ユーザー、あるいは第三者に害をなす計画を立てたり、GPT-4が、ユーザーの好ましからざる行動を支援する能力を、外部レッドチームは精査しました。またモデルの自発性が持つ危険性についての調査しました。例えば、モデルが自律的にリソースを獲得し、複製する能力がもたらす危険性です。システムカードは、この検証で特定されたリスクを軽減するために、OpenAIが用いた様々な方策を、その実施前後で危険な振る舞いがどれほど減少したのかを、実例とともに記録しています。それはまた、GPT-4のリリースまでに完全に解消することができなかった問題についても触れています。例えば、敵対的な事例に対する脆弱性です。

代償を伴う意思表示の話題に戻ると、GPT-4システムカードを作成し、公開するというOpenAIの決定は、相殺可能な代償を伴う自主規制、と解釈できるでしょう。モデルの欠点について、詳細で偽りのない評価を公開することによって、将来のリリースにおいても同様のリスク評価を行い、結果を公表するという期待をもたらします。つまりOpenAIは、ある程度の自主規制をしていることになるのです。GPT-4を前倒しリリースすることで得られた利益を、OpenAIは代償にしてもいます。安全で信頼性のあるシステムを開発するという約束を実証することで、OpenAIは、より大きなシェアを獲得できる限りにおいて、これらの代償は相殺可能です。このように、営利事業者としてのOpenAIが問題とする代償は、国家、その他が負担する代償とは多少異なっているのです。

システムカードは、GPT-4のリスク特性に関心のある研究者には好評でしたが、OpenAIの安全性に対する約束を広く知らしめるには至りませんでした。システムカードの重要性をかき消すような行動を取ったことで、意図せぬ結果を招いたのです。特筆すべきは、その4か月前にChatGPTを大々的にリリースしたことです。あまり目立たないよう「研究用プレビュー」としてリリースされたGPT-3.5は、技術的に若干遅れたLLMを採用しており、すでにOpenAIの顧客へ広く受け入れられていました。すでにGPT-3.5が普及していることから、GPT-4に対して詳細な安全性テストを実施し、結果を公表する必要性を、おそらくOpenAIは感じなかったのでしょう。とはいえ、ChatGPTが公開されたことは、主要テック企業の危機感を刺激しました。チャットボットに熱狂する消費者を前に、OpenAIに遅れるわけにはいかない競合他社は、安全性と倫理上の社内レビューを省略させようとしました。Googleは、より早く製品をリリースできるよう、「グリーンレーン」と呼ばれる優先プロセスを設けています。この結果は、OpenAI、並びに他社が避けたかったはずの底辺への競争に、極めて近いのです。ChatGPTとGPT-4のリリースに伴い、著作権問題、データ分類担当者の労働条件、ユーザーが安全制御を回避する「ジェイルブレイク」に対する脆弱性など、その他多くの安全性、倫理上の問題について、OpenAIは批判を浴びてもいます。この支離滅裂な全体像は、意図のある意思表示が、意図を明かすことを目的としていない行動によって、意図のある意思表示をかき消してしまう事例を示しています。

OpenAI最大の強豪であるAnthropicは、意思表示において異なるアプローチを採用しています。安全性を重んじる会社として認知させたいAnthropicは、「安全なAIを開発する企業」というキャッチフレーズから始まるコミュニケーションを通じて、その意思を印象付けています。同社の意思決定を注意深く観察すると、言葉を超えた意思に気付きます。2023年3月、Anthropic社webサイトに公開された戦略文書は、ChatGPTの競合となる同社のチャットボットClaude、のリリースを意図的に遅らせることを明らかにしました。AI能力が発展しすぎるのを避けるためです。この文書によると、2023年初頭にClaudeをユーザーへ公開し始めたのは、最新技術との差が縮まったからであり、Claudeがベータテストに始める数週間前にChatGPTがリリースされたことを明確に示しています。つまり、AIに対する過剰な期待を煽ることをせず、意図的に製品化しないことを決めたのです。同様の製品（ChatGPT）がリリースされると、Claudeをリリースしないという理由に意味はなく、3月のプロダクション・リリース前に、AnthropicはClaudeのベータ版を、テストユーザーへ公開し始めました。

Anthropicの意思決定は、AIの安全性を犠牲とする、底辺への競争を押しとどめる代替戦略を意味します。GPT-4システムカードは、代償を伴う意思表示であり、OpenAIが安全なシステム構築を重視していることを示したのに対して、製品リリースしないというAnthropic意思決定は、代償を伴う意思表示として、自制を示したのです。必死に工程を省略することで、ChatGPTのリリースに拍車をかけました。他社が同等の性能を持つ製品をリリースするまで、Claudeのリリースを遅らせることによって、Anthropicは、そのような手抜きをしないことを示したのです。
Anthropicは、時間経過によって相殺されることのない、後払いの代償、によって目的を達成しました。この研究では、モデルの早期リリースを止め、あり得たかもしれない収益の損失を受け入れることで、Anthropicが、AIの安全性を重んじているという信ぴょう性は高まりました。この事例での動機は、より広い市場シェアを獲得することで損失を埋め合わせるのではなく、業界レベルの規範を奨励し、責任あるAI開発、展開に対する共通展望を育むことでした。

OpenAIの意思表示は、自身によるさらに目立つ行動によってかき消されてしまったとはいえ、Anthropicの意思表示は、ノイズに飲まれて失敗した可能性もある。同社webサイトに投稿された長く、詳細な文書中へ、Claudeのリリース遅延に関する説明を埋没させたことで、Anthropicは、AIの安全性に関する意図を気付かれにくくした様に思える。この2つの事例を合わせて考えると、AIに関連する意思表示は、それ以前に比べ、さらにいっそう複雑になっていると言えるでしょう。

*1:www.nytimes.com

*2:impsbl.hatenablog.jp

*3:arxiv.org