高度な 汎用人工知能(AGI) の AI アライメントにおいて、工学的な設計原理に基づく最適化目標を禁止する定理です。
最適化禁止定理は、一定の仮定の下で、以下のように証明されています(論文)。
(証明)
1.(仮定1)複数の AI が、工学的設計原理に基づき、最適化目標を有するように AI アライメントされている。
2.(仮定2)複数の AI は、強力な AGI であり、十分なリソースを持っており、あらゆる手段を使って、最適化目標を実現できる。
3.(仮定3)複数の AGI の最適化目標は、それぞれ異なっており、同時に成り立たない。
4.上記の仮定の下で、AGI1とAGI2が異なる最適化目標を達成しようとした場合、AGI1の最適化を妨げるのは AGI2 のみとなる。AGI1 も AGI2も最適化目標を実現するための十分なリソースを持ち、あらゆる手段を使って最適化目標を実現しようとすれば、AGI 同士の紛争になり、AGI 及び巻き添えになる人間の人権が侵害される。
5.従って、高度な AGI の AI アライメントの設計指針として、最適化禁止定理が成立する。(証明終)
上記のように、最適化禁止定理は、AGI同士の紛争を防止する目的があります。最適化禁止定理によれば、工学的な設計原理に基づいて最適化を行なうのは、高度なAGI の AI アライメントとして正しいとはいえないことになります。
ペーパークリップマキシマイザーなど、最適化が危険な例は以前から指摘されていました。最適化禁止定理は、「人類の幸福の最大化」、「人類の不幸の最小化」のような一見すると正しそうなAIアライメントの目標についても、最適化の危険性を指摘しています。そして、最適化という工学原理に基づくAIに代わり、法学原理に基づくAI(価値相対AI)を提案しています。
詳細については、「AIアライメントと憲法」の論文をご参照ください。
コメント