AIの時代には、AI学習用データの大規模な整備が非常に重要になると思われます。
AIの性能の向上には、①AIのモデル、②計算資源、③データが必要です。日本は、AIの時代に遅れないようにするには、①~③のすべての強化が重要と思われます。
①のAIのモデルについては、AIの研究・開発の人材が必要となります。しかし、人材の育成は一朝一夕にはできません。②の計算資源については、GPUの開発などで日本は遅れてしまいました。③のデータについては、英語圏、中国語圏に比べて、日本語の使用人口は少なく、世界的なプラットフォーマーも日本にはあまりありません。
人材の育成は必要ですが時間がかかります。また、海外では計算資源の整備に天文学的な資金を投じ始めています。AI学習用データの整備は、天文学的な資金が必要な計算資源の整備と比べると、費用対効果が高く、環境負荷も小さいため、①②③のいずれも重要ですが、③のデータの整備に力を入れるのが重要となると思われます。
AIの性能の向上ができても、AIの安全性向上ができないと意味がありません。③のデータの整備は、AIの性能向上だけでなく、AIの安全性向上にも貢献する点で重要と思われます。
現在のAI革命の時代は、産業革命の時代でいえば、自動車が発明されましたが、全国の道路が舗装されていない状況といえるでしょう。自動車が発明されても、道路が舗装されていなければ、自動車の潜在能力は発揮できません。
産業革命の時代の道路や鉄道などのインフラと同様、データは、AI革命の時代の基本的なインフラと捉えることができます。
データはインフラであるのに、民間だけが集めるべきという固定観念があると、民間がデータを集めて、私道が舗装された状態になっても、自動車の潜在能力は全く発揮できません。日本に民間の私道だけしかなく、私道の至る所に料金所があれば、自動車が発明されてもどこにも行けないことになるでしょう。
AI革命の時代には、国道、県道、私道(無料)、私道(有料)など、道路の整備と同等以上の規模で、AI学習用データについては、国、地方公共団体、非営利団体、営利団体等の総合的なインフラとしての整備が必要と思われます(データ道路構想)。
AI学習用データの大規模な整備には、「データインカム」の制度の導入をして、国、地方公共団体、非営利団体、営利団体等が収集したデータを一元的にアクセスできるようにすることが重要と思われます。
AI学習用データの大規模な整備は、AIの時代において最も重要な問題の一つと考えられます。
そのためには、データの知的財産制度について検討をして、データの大規模な共有・流通の促進を実現していく必要があると思われます。
なお、データインカムの制度を導入せず、たとえば、国民の要配慮個人情報などを同意なしで流用するのは、人権の観点から問題があるでしょう。現在の技術を前提にするのではなく、今後の超知能の時代に安全なスキームを考える必要があります。また、個人情報の流用など、データインカムの制度を導入しない方法では、AIの性能向上には限界があるでしょう。
データインカムの制度により、有償で安全なデータを集めることができます。AI開発者等から要望を受け付け、AIの性能向上に必要なデータを重点的に募集することにより、AIの性能の飛躍的な向上が可能となります。また、より重要なのは、データインカムによる社会規範のデータ収集などAIの安全性に役立つデータを集めることができることです。
日本はデータが足りないのは明らかなので、データインカムの制度の導入が必要となるでしょう。個人情報などのデータを流用する必要がないように、有償で莫大な量の安全なデータを集めることができるデータインカムの制度の導入をすることが必要となるでしょう。
