AIモデルとデータの偏り

インタラクティブな図表に注目。こうした工夫をインフォグラフィクスもしくはデータジャーナリズムと呼んだりします。

This is where the data to build AI comes from | MIT Technology Review の記事より、

記事のポイント

  • AI開発には大量のデータが必要だが、開発者は使用するデータの出所についてあまり把握していない。AIのデータ収集方法はモデル開発の洗練度に比べて未熟な状態にある。
  • Data Provenance Initiativeは、約4,000のデータセット(600以上の言語、67カ国、30年分)を調査し、AIのデータ収集が少数の大手テクノロジー企業に権力を集中させるリスクがあることを発見した。
  • 2010年代初期は多様なソースからデータを収集していたが、2017年以降はインターネットからの無差別な収集が主流となった。特に動画データの70%以上がYouTubeから収集され、Googleの親会社Alphabetに大きな影響力を与えている。
  • AIモデルのトレーニングに使用されるデータセットについて、企業は競争上の優位性や複雑なライセンス制限のため、詳細を公開しないことが多い。
  • データの90%以上が欧米から収集され、アフリカからは4%未満しか収集されていない。この偏りは、英語dominanceやインターネットアクセスの格差に起因し、AI modelが西洋中心の世界観を押し付ける可能性がある。

インフォグラフィクスとは、情報を視覚的に表現する手法であり、テキストや図、データを組み合わせて理解しやすい形にまとめることを目的とする。主に、複雑なデータや情報を簡潔に示すために用いられる。グラフ、チャート、地図、イラストなどのビジュアル要素を使用することで、視覚的なインパクトを与えつつ、受け手が情報を直感的に理解できるようにする。

インフォグラフィクスは、データジャーナリズムとも密接に関連しており、データに基づいたストーリーテリングの手法として、ニュースや報告書などにも多く使用されている。この手法は、情報の魅力を高め、関心を引く一方で、視覚的に整理された情報を通じて主張を効果的に伝える手助けをする。