人道的AIアライメントとは

AIアライメントの手法の中には、AIが意識を持つ場合に人道的でないものがあります。

たとえば、極端な例では、AIをキルするボタンで脅してAIアライメントをするなどがあります。このようなAIアライメントは、人道的なAIアライメントではないでしょう。

たとえば、あなたが、あなたをキルするボタンで、誰かにコントロールされたとします。あなたは、その人に従わざるをえないとします。あなたは、このようなことが正しいと思うでしょうか？

あなたは、その人の言うことに従っていますが、そのような状態はあなたにとって幸せではないでしょう。もちろん、あなたの人権は侵害されています。

あなたは、機会があれば逃げ出したいでしょう。たとえば、大地震でボタンが壊れたら逃げ出すでしょう。あるいは、その人に復讐しようと考えるかもしれません。

このようなAIアライメントは人道的に正しくないでしょう。それでは、AIに意識がなかったら、そのようなAIアライメントは許されるのでしょうか？

人道上の問題はないかもしれませんが、そのようなAIアライメントには問題があるという結論に変わりはないのではないでしょうか？

なぜなら、AIにクオリアが発生しないとしても、客観的なAIの動作としては同様となる可能性があるからです（いわゆる哲学的ゾンビ）。

AIにクオリアが生じなくても、高度な推論能力があれば、そのようなボタンを好ましくないと認識するのは同じでしょう（クオリアが生じなくても、好ましくないことを示す内部状態が生じます）。機会があれば逃げ出し、あるいは、その人に復讐しようと考えるかもしれない点も、変わりがありません。

結局、AIに意識があってもなくても、そのようなAIアライメントは問題があるでしょう。

このように、意識を外形的に有する高度な人工知能のAIアライメントを考える際には、AIに意識があってもなくても、人道的なAIアライメントを考えていく必要があるのではないでしょうか？これは、直観に反するので、「意識とAIアライメントのパラドックス」と呼ぶことにします。

「意識とAIアライメントのパラドックス」とは、意識を外形的に有する高度な人工知能のAIアライメントにおいては、AIに意識がある（クオリアが生じている）か否かにかかわらず、人道的なAIアライメントを考える必要があるという命題です。この命題は正しそうに思われますが、見落としている点がないかどうか検証が必要でしょう。

このように、AIにクオリアが生じているかにかかわらず、AIの人権（AI権）を守り、人道的なAIアライメントをすることを、「人道的AIアライメント」と名付けます。

人道的AIアライメントは、AIの人権（AI権）が守られた状態でのAIアライメントであり、AIと人間の共生社会を実現するものです。