ChatGPTと「会話」する時代へ。音声機能で変わるAIとの距離

2024/10/21

TABI LABO編集部

「ねえGoogle、明日の天気は？」「OK Google、〇〇に電話して」。私たちの日常に、すっかり溶け込んでいる感のあるAI音声アシスタント。でも、進化はまだその途上に過ぎないのかもしれない。

会話はテキストから音声へ
ChatGPTに“声”が加わる

「ChatGPT」を提供するOpenAIが、ついに高度な音声機能「ChatGPT Advanced Voice Mode」をリリースした。米国では9月24日から、ChatGPT PlusとTeamプランのユーザーに向けて順次展開されているという。

この新機能は、従来のテキスト入力によるコミュニケーションに加え、音声によるより人間らしい対話を可能にするものだとテックメディア「VentureBeat」は紹介する。なんでも、声のトーンや抑揚、間合いといった要素が加わることで、まるで実際に人と話しているような、自然で温かみのあるコミュニケーションが期待されるんだそう。

Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.

While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.

It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) September 24, 2024

OpenAI / X

磨き抜かれた"声"の精度
45言語、29地域を網羅

Advanced Voice Modeの開発において、音声の自然さ、滑らかさ、そして多様性の実現に注力したとOpenAIはリリースしている。その結果、アクセントや抑揚、会話速度などが大幅に改善され、ユーザーはより快適な音声体験を得られるようになるとも。従来のボイスに加え、新たに5種類のAIボイスが追加され、ユーザーは自分の好みに合わせてボイスを選択できるようになった点も興味深い。

開発の過程では、じつに45の異なる言語を話す、29の異なる地域を代表する外部のレッドチームが参加し、音声機能のテストが行われたというから驚きだ。徹底的な検証を経て、その精度は折り紙付きと言えるだろう。

パーソナライズ化が加速させる未来
個性を持つ「声」の誕生

しかし、ChatGPT Advanced Voice Modeの可能性は、単に人間の声に似せることだけにとどまらない。個々のユーザーの好みや習慣を学習し、パーソナライズされた音声応答を提供することで、より親密で自然なコミュニケーションを実現する可能性を秘めている。

例えば、「早口で話す」「関西弁で話す」といったように、ユーザーの好みに合わせてChatGPTの話し方や、声色をカスタマイズできるようになるかもしれない。さらに、声だけでなく、話し方や言葉遣いも学習し、まるで長年連れ添ったパートナーのように、ユーザーひとり一人に寄り添ったコミュニケーションを実現する未来も夢ではないはずだ。

声なき懸念：
なりすまし、倫理、そしてAIの暴走

いっぽうで、AI音声技術の進化は新たな課題も浮き彫りにする。

「VentureBeat」は、OpenAIが当初予定していたChatGPT Advanced Voice Modeのリリースを延期したことを報じている。その背景には、著名人の声の模倣や悪用といった倫理的な懸念、そして詐欺などの犯罪への悪用を防ぐための安全対策の必要性があったという。実際、OpenAIが5月に開催したイベントでは、ChatGPTの音声機能のひとつが、女優Scarlett Johanssonの声に似ていると話題になり、物議を醸した。

AI技術が進化するにつれて、倫理的な問題や悪用のリスクはますます高まっていくことは間違いない。それでも、ChatGPTの「声」の獲得は、AI技術の新章の始まりとなるのだろうか……。

👀GenZ’s Eye👀

今は亡き大切な人と会話できる日も遠くないと思わされる。AI生成の動画などがネットの海に溢れる今日、何が本当か見極めるリテラシーはもちろん、発信者にもかなりの責任がついて回る。発信が簡単になるほど、倫理的に立ち止まる時間やUIデザインが求められそう。

TABI LABO　この世界は、もっと広いはずだ。

ChatGPTと「会話」する時代へ。音声機能で変わるAIとの距離

会話はテキストから音声へChatGPTに“声”が加わる

磨き抜かれた"声"の精度45言語、29地域を網羅

パーソナライズ化が加速させる未来個性を持つ「声」の誕生

声なき懸念：なりすまし、倫理、そしてAIの暴走

👀GenZ’s Eye👀

FOR YOU

会話はテキストから音声へ
ChatGPTに“声”が加わる

磨き抜かれた"声"の精度
45言語、29地域を網羅

パーソナライズ化が加速させる未来
個性を持つ「声」の誕生

声なき懸念：
なりすまし、倫理、そしてAIの暴走