「理屈」と「常識」備えたAI 事業モデルの適応迫る
言語生成AI(人工知能)に「データの壁」が迫っている。米シンクタンク・エポックAIと学者らの2024年6月の推計によると、ネット上の公開文字データの総量は半角文字で1200兆字にのぼった。ただ、AIによる無断学習を嫌うメディアなどが文字データの非公開化・有償化に動いており、公開データが急速に減っている。
一方で最先端の生成AIの学習データ量は80兆〜120兆字で、日々拡大している。
2025年2月23日 日本経済新聞
すごいですね。今年中には、ネット上のすべての文字データを学習し尽くしてしまうそうです。
イラスト、写真、動画、音声、音楽などの非文字データも学習し尽くすのも時間の問題でしょう。
もはや情報量ではAIには太刀打ちできません。
ただし、これはネット上に公開されているデータだけです。ネット上に公開されていないデータについてはAIは知り得ないので、まだこちらにアドバンテージはありそうです。
もっとも、AI自らが情報を求めて、手段を選ばずにハッキングして情報を盗み出す、なんてことが起きてもおかしくはありませんが。