AI進化の限界〝学習データ枯渇〟を突破する一手｜おすすめアプリをガンガンまとめ

人工知能（AI）の普及がピークに達するなか、研究者たちは、強力なAIシステムを構築するために必須な学習データが不足しつつあると警告しています。学習データの不足の現状について、サイエンスメディア「The Conversation」が解説しています。

*Category:サイエンス Science *Source：The Conversation ,MIT Technology Review

高品質なデータが重要なAIトレーニング

強力で正確、かつ高品質なAIアルゴリズムを学習させるには、多くのデータが必要です。例えば、ChatGPTは570ギガバイト、つまり約3000億語のテキストデータでトレーニングされました。同様に、安定拡散アルゴリズム（DALL-E、Lensa、Midjourneyなど多くのAI画像生成アプリを支えている）は、58億個の画像とテキストのペアからなるLIAON-5Bデータセットでトレーニングされました。アルゴリズムが不十分な量のデータで訓練されると、不正確または低品質の出力を生成することになるのです。

また、学習データの質も重要です。ソーシャルメディアの投稿や不鮮明な写真のような低品質のデータは、高性能のAIモデルを訓練するには十分ではありません。さらに、ソーシャルメディア・プラットフォームから取得したテキストは、偏見がある可能性があり、偽情報や違法なコンテンツが含まれている場合もあります。例えば、マイクロソフトがツイッターのコンテンツを使ってAIボットを訓練しようとしたところ、人種差別的で女性差別的な出力を生成することを学習したのです。

そのためAI開発者は、書籍、オンライン記事、科学論文、ウィキペディア、またはフィルタリングされた特定のウェブコンテンツのテキストなど、質の高いコンテンツを求めているのです。例えばGoogleアシスタントは、セルフパブリッシングサイトSmashwordsから取り出した11,000冊のロマンス小説で訓練され、より会話に適したものになりました。

AI業界は、より大規模なデータセットでAIシステムをトレーニングしてきました。だからこそ、ChatGPTやDALL-E 3のような高性能なモデルが出来上がったのです。一方で、オンライン上のデータストックは、AIのトレーニングに使用されるデータセットよりもはるかに成長が遅いという調査結果もあります。

昨年発表された論文で、現在のAIトレーニングの傾向が続けば、2026年までに高品質のテキストデータが枯渇すると予測しました。また、低品質の言語データは2030年から2050年の間に、低品質の画像データは2030年から2060年の間に枯渇すると推定されています。会計・コンサルティンググループのPwCによると、AIは2030年までに世界経済に最大15.7兆米ドル（約2381.69兆円）貢献する可能性があるといいます。しかし、使用可能なデータが不足すれば、その発展を遅らせるかもしれません。

しかし、データ不足のリスクに対処する方法もいくつかあります。ひとつは、AI開発者がすでにあるデータをより効率的に使えるようにアルゴリズムを改良することです。今後数年のうちに、より少ないデータ、さらにはより少ない計算能力で、高性能なAIシステムを訓練できるようになるでしょう。これは、AIの二酸化炭素排出量を減らすことにもつながります。

開発者はまた、大規模な出版社やオフラインのリポジトリが保有するような、無料のオンライン空間以外のコンテンツも探しています。例えばインターネットが普及する前に出版された何百万ものテキストを考えてみてください。デジタルで利用できるようになれば、AIプロジェクトに新たなデータ源を提供できるかもしれません。

世界最大級のニュース・コンテンツ所有者であるNews Corp（同社はコンテンツの多くを有料で提供している）は最近、AI開発者とコンテンツ取引について交渉していると発表しました。こうした契約により、AI企業は学習データに対する支払いを余儀なくされることになります。これまではほとんどがインターネットから無料でデータをかき集めていました。コンテンツ制作者たちは、AIモデルを訓練するために自分たちのコンテンツが無許可で使用されることに抗議しており、マイクロソフト、OpenAI、Stability AIといった企業を訴える者もいます。彼らの仕事に対して報酬が支払われることは、クリエイターとAI企業の間に存在する力の不均衡を回復するのに役立つかもしれません。

意外な方法としては、AIを使って、特定のAIシステムを訓練するための合成データを作成するというものもあります。「The Conversation」によれば、すでにいくつかのプロジェクトが、Mostly AIなどのデータ生成サービスから入手した合成コンテンツを使用しているとのこと。同メディアはこの選択肢について「今後より一般的になるだろう」と指摘しました。