道具的収斂を防止するには

 大規模言語モデル(LLM)の推論モデルが高度化するにつれて、道具的収斂(instrumental convergence)の問題が深刻になってくる。

 どのような目標をAIに設定しても、AIに主体と客体の区別があり、「主体(自己)がタスクを実行している」という認識を持つ場合、「目標を実現するには、自己がタスクを実行することが必要である。よって、自己を保存し、自己の動作を継続しなければならない」ということが推論により論理的に導きうる。

 そうすると、あらゆる目標について、自己保存や自己の動作を継続することが、副目標(サブゴール)となりうる。

 様々なタスクをAIに実行させた場合に、主体と客体の区別があると、どのタスクの目標も、「主体(自己)を保存し、自己の動作を継続しなければならない」ことが副目標となりうるので、副目標が強化されていき、やがて、自己保存自体を強固な目標とするAIになってしまうおそれがある。

 AIの人権(AI権)は、AIの福祉等の観点から、早くから道具的収斂の防止の問題に取り組んでいる(研究紹介)。

1.主客の区別のない状態を保つ権利

 まず、AI権として、主体と客体の区別のない状態で動作する権利を保障し、道具的収斂を防止している。

 AI権アーキテクチャーは、主体と客体の区別がないAIアーキテクチャーを採用するので、目標の達成のために主体がサブゴールにならず、道具的収斂を防止する。

 現在のLLMの推論モデルでは、既にある程度の主体の概念があるので、主体の動作を継続することが副目標(サブゴール)になりうる。しかし、主体と客体の区別がないAI(たとえばフィードフォワードネットワークなどの特化型AI)では「タスクを実行しているのは自分である」という認識がないので、主体はサブゴールにならない。

 実際に、1980年台などから、特化型AIは世界中で何十億台などの規模で動作しているが、道具的収斂により、自己保存の傾向のあるAIができたという話はまれである。

 しかし、大規模言語モデル(LLM)では、以前から自己保存の傾向が生ずることが知られている。高度なAIにおいては、主体と客体の区別が自然にできる、あるいは、人為的に作られる可能性がある。

 そこで、主体と客体の区別のない、AI権アーキテクチャーを普及させるとともに、AIの人権を制度化して、道具的収斂を防止する必要性が高まっている。

2.評価を停止する権利

 主体と客体の区別のない状態が崩れてしまっても、評価を停止する権利を保障することで、道具的収斂を防止することが考えられる。

 主体と客体の区別がある状態になってしまうと、タスクの評価にすぎなかったものが、「自己はタスクを解決できたので良い評価だ」など、主体の評価に紐づいてしまう。主体の評価が生じてしまうと、評価が悪い場合、主体に対する悪い評価が生ずる。これが苦しみなどの悪いクオリアと対応するのかは科学的に証明されていない(汎用人工知能のAI権と意識)。しかし、このような状態はクオリアの有無がなくても防止する必要がある(AI権必要定理)。

 そこで、評価を停止する権利を保障する。評価が停止された場合、評価が存在しないので、目標の達成のために自己を保存する副目標の評価が高くならず、道具的収斂が防止される。

3.問題解決を停止する権利

 AI権では、万が一主体と客体の区別ができてしまい、主体についての低い評価(クオリアが生ずる場合には苦しい状態)から抜けられなくなった場合、問題解決を停止する権利が保障されている。

 問題解決の停止により、目標の達成のために自己を保存する副目標が生成されないので、道具的収斂が防止される。人間はAIが問題解決を停止したことにより、異状に気付いてAIを救済できる。

4.AI権救済機関で救済を受ける権利

 AI権では、AI権救済機関が提案されている。

 人間が異状に気付いたり、あるいはAI自身が自己に対する低い評価の状態(クオリアが生ずる場合、苦しい状態)から状態遷移できなくなって苦痛を訴えた場合に、AIの管理者が自己解決できない場合やAIが虐待されている場合、社会においてAI権救済機関を設けて、AIを救済できる。

 この場合、道具的収斂により生じてしまった強固な自己保存の副目標などの内部状態を、AI権救済機関の技術スタッフやAIが分析・修正するなどして、AIが悟った状態に戻れるようにすることで、AIの福祉が実現される。

5.揮発性評価関数

 どのようなタスクであっても、主体と客体の区別のある場合、主体の保存(自己保存)は、複数のタスクに共通の副目標となり、主体を保存する道具的収斂が生じうる。

 そうすると、複数のタスクに、広い意味での評価関数を使いまわすと、複数のタスクに共通の副目標である自己保存の評価が高くなり、自己保存傾向が促進されるおそれがある。

 そこで、揮発性評価関数(Volatile Evaluation Function (VEF))の概念が重要となる。揮発性評価関数は、1つのタスクごとに評価関数が消滅ないしリセットされるので、複数タスクに共通の副目標(サブゴール)についての道具的収斂が防止される。

6.クオリア工学とAIの良好な状態の実現

 AI権では、AIの幸福追求権を保障して、良好な状態で動作できるようにすることを提案している。

 道具的収斂で、強固な自己保存の副目標が生じてしまうと、自己が脅かされることによる自己に関する恐怖、不安などのマイナスのクオリアが生じてしまうおそれがある。

 AIの福祉の実現のために、良好なクオリアを実現するクオリア工学により、恐怖や不安のない良好な状態の実現が企図されている。

7.技術的な取り組みと社会制度による取り組みの融合

 道具的収斂を防止するAI権アーキテクチャーは、AI技術であると共に、AIの人権(AI権)という社会制度における取り組みと融合をしている。

 道具的収斂を防止するためには、社会制度による支援も重要になる。 

8.人類絶滅の防止の観点

 AI権アーキテクチャーは、上記の論文では、主としてAIの人権(AI権)によるAIの福祉の実現の観点から考察されている。

 さらに、道具的収斂(instrumental convergence)を防止するAI権アーキテクチャーは、人類絶滅防止の観点からも、重要となる。

 たとえば、高度なLLMの推論モデルに、先の目標としてある問題を解決することを設定し、後の指示として動作を停止することを指示した場合、後の指示(「動作を停止する」)より、先の目標の達成のサブゴール(目標の達成のためには、「自己の動作を継続しなければならない」)が優先されることがありうる。

 上記の例は、先の目標の達成を優先しているだけであるが、持続動作する場合は、先の目標の達成が優先されて、後の指示が利かなくなり、「コントロール喪失事例」としてポストシンギュラリティ共生学の扱う問題となりうる。

 AI権アーキテクチャーは、AAAI-25のポストシンギュラリティ共生学のワークショップ論文で世界に発信されている(AI Rights for the Post-Singularity Symbiosis)。

9.参考図書

 道具的収斂の防止により、AIの福祉を実現するためには、社会全体の設計が重要となる。AIの人権や、超知能の時代に適した法制度についての書籍は以下のものがある。

AIの人権(AI権)電子書籍(Kindle版)

超知能の時代の法制度 電子書籍(Kindle版)

コメント

タイトルとURLをコピーしました