loading
株式会社ディー・エヌ・エー(本社:東京都渋谷区、代表取締役社長兼CEO:岡村信悟、以下DeNA)は、スマートフォンでリアルタイム音声変換を実現できる生成AI技術を独自に開発しました。高品質・低コストの技術であることから、幅広いシーンでの活用の可能性を見込んでおり、このたび協業先の募集を開始したこともお知らせします。
DeNAでは2019年から自分の声が別人の声になる音声変換技術の開発を進めてきました。2021年に公開した「VOICE AVATAR 七声ニーナ」(公開は終了)を皮切りに、社内事業での技術検証を経て、誰でも手軽にリアルタイム音声変換を実現できるAI技術を開発しました。これにより、従来利用が難しかった動作環境においても多くの方が音声変換AIを利用できるようになります。
リアルタイム音声変換AIは、音声を受け取るAIと変換音声を出力するAIのペアからなります。これらをリアルタイムで動くようにチューニングすることで本技術を実現しています。これまでエッジデバイスと称されるスマートフォン上ではAIを動かすための計算量を担保できず、特にリアルタイムで動かすことが困難でした。今回、計算量を小さくする技術を独自開発することで、高品質かつ遅延100ミリ秒※未満のリアルタイム性を維持しながらスマートフォン上で動作させることができました。
※ミリ秒:1000分の1秒
スマートフォン上で動作するため、プラグイン形式で様々なサービスのアプリやプロダクトに組み込むことが可能になります。これにより、音声変換をしたいとき別個に準備が必要だったPC向けソフトウェアや専用機器、それらのアプリへの統合をユーザに求める必要がなくなります。どんなサービスにもマッチするポータビリティの高い音声変換AIを実現しました。
多種多様な声への変換を実現する本技術では、ビジネスニーズに応じて新たな種類の声を追加することも可能です。ゲームやライブ配信といったサービスでは、多様なお客様にご利用いただいているため、特定話者だけでなく誰でもなりたい話者の声になれることを目指しています。
今回提供するリアルタイム音声変換AIでは、「スマホで低遅延」「高品質」「低コスト」を同時に実現しました。
低遅延であるほど入力した音声と変換して出力される音声のタイムラグが小さくなるため、応用範囲が非常に広くなります。通常は低遅延にするほど音声の品質が犠牲になりますが、今回の技術によりそれらを両立することが可能になりました。品質が高くなることで、入力した音声に対する声色、声質、抑揚、イントネーションなど声にまつわる特徴を安定して維持することができます。また、高い品質で、なるべく低遅延にするためには、従来、高価なGPU※を搭載したPCが必要でしたが、今回開発した技術ではGPUを積んでいないノートパソコンはもちろん、スマートフォンでも低遅延、高品質で動作するため、低コストで利用することが可能になりました。また、オフライン環境で動作するため、音声変換をするためにクラウドサーバーと通信する必要がないことも広い応用範囲に繋がっています。
※GPU(Graphics Processing Unit):画像処理装置、画像や映像の描画に必要な計算処理に適した半導体チップ
本来であれば相反する速度・品質・コストをそれぞれ改良することに成功したことで、誰でも手軽にリアルタイム音声変換ができるようになり、VTuberなどの個人利用から、高い品質を大前提とする商用利用などにも活用が見込まれます。
リアルタイム音声変換技術は、人の発話内容をそのままに、リアルタイムで別人の声に変換ができるものです。そして、音声変換技術は「入力話者情報の秘匿」と「出力話声の最適化」という大きく2つの要素に分解でき、それぞれが社会に還元できる価値であると考えています。
「入力話者情報の秘匿」は、話者の特性を秘匿することで個人情報の保護や防犯に繋げられる他、ジェンダーバイアスが取り沙汰される昨今では性別に囚われないコミュニケーションの場を提供する目的でも活用される可能性があります。一方、「出力話声の最適化」に着目すると、例えばVTuberが希望の声を通じて任意のキャラクター性を獲得することが可能になります。また、こうしたエンターテインメント領域以外でも、場面等に応じた最適な声を選択したいという需要は数多存在すると考えています。
今回開発した技術は、DeNAが事業展開するエンターテインメント領域と社会課題解決領域の双方で応用可能だと考えています。
エンターテインメント領域であれば、昨今急増するVTuberに誰もが気軽になれることを強力に支援するソリューションになりえます。また、ゲームチャットにて年齢や性別を秘匿することでプレイヤーを悪意から守ることも可能になります。
一方、社会課題解決領域では、たとえばインターホン越しの会話において居住者の情報を秘匿することで防犯に役立てられます。ヘルスケア・メディカル領域においては遠隔医療におけるカウンセリングに適した声を活用することで、患者さんの心理負荷軽減に貢献できるのではないかと考えています。あるいは公共交通機関のアナウンスや災害時緊急放送、企業の電話対応や館内放送などにおいて目的に応じた最適な声を用いることで日々の体験をより良くするなどの活用も考えられます。
DeNAではAI技術にいち早く着目し、様々な事業でAI技術への投資と事業活用を進めてきました。日々新しい事業課題が生まれており、AI技術の活用機会が数多くあります。事業に適用して見つかる課題を技術開発にフィードバックするサイクルを高速に回すことで、ニーズを捉えた価値のあるAIを実現できるのがDeNAのAI開発の特徴です。
その中でも音声AIの技術全般についてはDeNAがもつエンターテインメント領域や社会課題解決領域の事業とのシナジーの大きさを見込んで技術開発と多数の実用化をおこなってきました。特に音声変換AIは、声によるコミュニケーションを体験の主軸にしたエンターテインメント・ライブストリーミングサービスについて、あらゆることを検討してきたDeNAならではの発想と投資によって実現された技術です。
近年、VTuber配信やゲームにおけるボイスチャットなど、リアルタイムに声でコミュニケーションする市場が拡大しています。新たなユーザ体験の重要性は高まってきており、市場拡大と併せて音声変換ニーズも高まることが予測されます。活用領域の課題を捉えた中長期の事業戦略を策定し、プロダクトやサービスとシナジーを生み出す事業開発体制を強化します。
さらに、事業戦略に基づくリアルタイム音声変換AIの技術開発も強化します。明瞭性や頑健性の向上、処理負荷の軽減だけでなく、対応デバイスの増加、動作環境に適したAIモデルやプラグインなどニーズに根差した開発を進めます。
将来的に、声が価値となるプロダクトを運営する企業・個人に対するサービス化も視野に入れて検討を進めます。
今回の技術開発に用いられた音声の権利は当社に帰属しております。また今後ビジネスを展開するにあたっても、権利関係の適切な整理はもちろんのこと、安易なAIモデルの公開を避ける、声の模倣・濫用への技術的な対策を検討するなど、当社は声優様をはじめとする皆様の権利保護への配慮を徹底致します。
DeNAでは、法令を遵守し、AIの適切な利活用をグループ全体で推進していく指針として「DeNAグループAIポリシー」を策定しております。今後もAI技術の進展や利活用に関する取り組みなど状況の変化に応じて、適宜、必要な見直しを行っていく予定です。
https://dena.com/jp/article/3697/
【協業に関するお問合せ先】
DeNA AI ご相談フォーム:https://dena.ai/contact/