Microsoft「たった3秒の音声」でその人の声を再現するAIを発表！

2023/02/06

TABI LABO編集部

さまざまな分野でAIが実用化される昨今、「Microsoft」社が脅威的な音声合成AIモデル「VALL-E」を発表。

なんとこのAI、たった3秒の音声データだけで、その人の声質を（ほぼ）完全再現してしまうという。

「VALL-E」の技術は、技術者にか分からないほど複雑なものだが、7000人以上、6万時間におよぶ英語音声から学習した、AIによる新しい言語モデル。

従来の合成音声技術とは違い、Microsoft社はこれを「ニューラルコーデック言語モデル」と名付けている。

実際に、Web上の論文で公開されているデモデータを聞いてみると、これにはびっくり。本当に、たった3秒の音声データを元に、その人の声質を再現し、長文を読ませてしまっているのだ。（実際に聴いてみたい方はこちらから）

単純に「凄い」という感想は持ちつつも、一方で悪用されてしまうのではないかとも心配になる。

もちろんMicrosoftは、そこにも危機感を覚えており、同社が定める「責任ある AI の原則」を実践すると述べている。

まだ技術は非公開となっており、実際に実用化される際には、何かしらの対策がなされるということだ。