2021年時点で、インターネット上のコンテンツのうち60.4%は英語です。したがって、AI企業が大規模言語モデル(LLM)や学習データセット開発のためにウェブ上でデータ抽出を行う際、総データ量と利用頻度の両面から、英語が最も主たる言語となります。とはいえ、英語の資料や情報ばかり利用することで、そのシステム自体が英語による物の考え方、特にアメリカ、イギリス、オーストラリア、カナダの視点に偏る可能性が生じます。このことは、私たちが知らず知らずのうちに英語圏諸国の考え方に影響を受け、言語、歴史、文化などの視点もそちらにシフトしていく可能性をも示唆します。このことが一般の人達のみならず生成AI技術にも広がることで、更に影響力が増幅されます。
デジタル言語格差
異文化交流や国際コミュニケーションに、「リンガフランカ」のような共通語を用いることは特段悪い方法ではありません。むしろ、英語と比べて使用者が少ない言語の国民が、自分達の「デジタル言語格差」に懸念をもつことは当然です。世の中全体が、英語のように地位を確立した言語に過度に依存する傾向を目の当りにしたら、少数派である自分達の言語、更には自分達のコミュニティまでもが、未来の進歩した技術から取り残されると考えるのは至って普通のことではないでしょうか。
英語優位の永続的サイクル
英語の持つ優位性や支配性は、スピーディ且つ確実に世の中に定着する可能性を持ちます。なぜ人々は英語でコミュニケーションを取り、新しいツールやデジタル・エコシステム(企業が相互に連携し幅広い製品やサービスを提供すること)を英語で開発するのか。それは決して英語がベストで理想的な言語だからではなく、単に多くの人が使っているメジャーな言葉だから、という理由かもしれません。もし何の抵抗もなく今後もこの状態が続けば、英語による独占はますます拡大することが予想されます。
AIによる言語多様性の促進
その方向性にストップをかけるべく、フィンランドのスタートアップ企業であるSilo AI社は、特定の北欧言語の大規模言語モデルである”Viking”を開発しました。これは、デンマーク語(560万人)、フィンランド語(580万人)、アイスランド語(35.8万人)、ノルウェー語(500万人)、スウェーデン語(920万人)の話者がAI技術において取り残されることなく、これからも存在・存続し続けるための包括的手段です。これらの言語話者数を合計しても、14億人に上る英語話者数とは到底太刀打ちできません。だからこそ、新しいAI技術の開発に際し英語以外の言語と話者に注目し組み入れようとするこの試みは、特筆すべきことなのです。
インターネット上のコンテンツ(およびAI学習データ)で高頻度で使用される言語のリストを見ると、北欧言語の中で名前が載るのはオランダ語のみ、コンテンツ全体の0.6%です。一方、日本語は約1億2千万人の話者数がいるものの、全コンテンツに対し4.3%に留まっているのが現状です。この数字からは、日本語がLLMに組み込まれる可能性があるようにも見えますが、実際にはオランダ語の状況とさほど大差はないと思われます。

アクセシビリティと言語的多様性の両面から考えて、少数派言語の優位性に積極的にアプローチする動きは非常に評価すべき流れです。近頃AIのリスクやネガティブな面に関する報道が多い中、AI技術を使ったこのような活用法を世界に伝えられるのは大変喜ばしいことです。AIは、私たちの未来において高価値で有望な技術です。使用言語という縛りによってその活用の幅が狭められることなどあってはなりません。結局のところ、世界で英語を話さない人の数は、英語を話す人よりも圧倒的に多いのです。これからより高い技術の未来へ向かう時、英語が母国語か否か、英語を話すか話さないかに関わらず、私たちは世界中のすべての人々を巻き込み、共に前進することが重要ではないでしょうか。
(こちらは英語による執筆記事の日本語訳です。是非、オリジナル英語版もご覧ください。)

Learning Cycleでは、DE&Iの理解を更に深めることができる様々なプログラムをご提供しています。DE&I、そして私たちLearning Cycleについてもっと知りたい方は、是非こちらをご覧ください。







