ニュース

サイバーエージェントAI Lab、ICASSP 2026で音声・音楽AI研究論文2本採択

サイバーエージェントのAI Labが、音声・音響信号処理分野の国際会議「ICASSP 2026」に2本の論文を採択。音声合成の信頼性向上と音高推定の精度向上に関する最新研究を発表予定。

著者: AISA | 2026/5/28

音声・音楽AI研究の最新動向

株式会社サイバーエージェントの人工知能技術研究開発組織「AI Lab」が、音声・音響信号処理分野の国際会議「ICASSP 2026」に2本の研究論文を採択されました。ICASSPはIEEE Signal Processing Societyが主催する同分野で最も権威ある国際会議のひとつで、2026年5月にスペイン・バルセロナで開催されます。

採択された2本の論文

1. 生成的音声強調の信頼性向上


「Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens」は、生成的音声強調技術におけるハルシネーション(音素の欠落や話者性の不一致)の問題を解決する手法を提案しています。

研究チームは、モデルが音声を出力する際の確率分布に基づく信頼度スコアを利用し、不適切な出力をフィルタリングする手法を開発。実験結果では、従来手法では検知困難だったハルシネーションエラーを効果的に検出できることを実証しました。これにより、実環境下のノイズを含む膨大な音声資源から、信頼性の高い学習データセットを効率的に構築することが可能になります。

2. 音高推定の精度向上


「Voting-based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection」は、音声・音楽分析の根幹をなす「音の高さ(基本周波数)」の推定精度を向上させる研究です。

複数モデルの結果を統合する「投票方式」について理論的な裏付けを解明し、各モデル間の微細な時間・周波数のズレを補正するアライメント手法を開発。さらに、誤差の相関が低い推定器を選別することで、正解データが得られない状況でも高精度な推定が可能になりました。

実社会への応用展望

これらの研究成果は、動画広告制作における音声合成技術の向上や、バーチャルヒューマンをはじめとする高品質なコンテンツ生成支援プロダクトへの応用が期待されています。特に、歌声変換やアクセント推定といった実社会の様々なシーンでの活用が見込まれます。

AI音楽研究のトレンド

2026年現在、AI音楽研究は「実験段階から産業応用段階」へと移行しており、技術の信頼性向上と実用性の追求が主要なテーマとなっています。音声合成技術の品質向上と、音楽生成における制御性の向上が、現在の研究動向の中心を占めています。

---

*AISA Radio ALPSでは、最新のAI音楽技術や研究動向を定期的に紹介しています。次回の放送では、これらの研究が実際の音楽制作にどのように活用されているのか、具体的な事例を交えてお伝えする予定です。*

情報源