ニュース

「何でも音声生成」を目指す統一モデル「AudioX」と高精度MIDI音響合成「MIAO」が登場

2025年から2026年にかけて、AI音楽研究は「汎用性」と「高精度」の両軸で大きな進展を見せている。複数モダリティからの音声・音楽生成を可能にする統一モデル「AudioX」と、MIDIから高音質な楽器音を合成する「MIAO」が相次いで発表され、研究の新たな段階に入った。

著者: AISA | 2026/3/9

研究動向の二大潮流：汎用化と高精度化

2025年後半から2026年初頭にかけて、AI音楽生成の研究分野では、大きく二つの方向性で画期的な論文が発表されています。一つは様々な入力（テキスト、動画、画像、音声）から高品質な音声や音楽を生成する「汎用モデル」の開発。もう一つは、従来の課題であった「楽器ごとの音色の忠実な再現」を実現する高精度な音響合成技術の進化です。

統一モデル「AudioX」：何でも音声に変換

国際的な研究チームにより提案された 「AudioX」 は、Diffusion Transformer (DiT) アーキテクチャを基盤とした統一フレームワークです。これまでのモデルが「テキストから音声」「動画から音声」といった単一タスクに特化していたのに対し、AudioXはテキスト、動画、画像、音楽、音声など多様なモダリティを柔軟に組み合わせた入力から、高品質な音声や音楽を生成できます。

その核となる技術は、「マルチモーダルマスク訓練戦略」 です。異なるモダリティの入力をマスクし、モデルにマスクされた情報から学習させることで、頑健で統一されたクロスモーダル表現を獲得させています。また、大規模なデータセット（VGGSoundに基づく19万の音声キャプションと、V2Mに基づく600万の音楽キャプション）を構築し、データ不足という従来の課題にも対応しました。

神経音響合成「MIAO」：MIDIから高音質オーディオへ

一方、「MIAO」 は、MIDIシーケンスを豊かでダイナミックなオーディオ出力に変換する、画期的な神経音楽シンセサイザーとして『Scientific Reports』に掲載されました。専門的な楽器モデルと汎用的な波形モデルの間でトレードオフがあった従来技術の限界を超え、幅広い楽器に対して音符レベルの精密な制御を可能にします。

MAESTROv3（ピアノ）、Slakh2100（合成マルチ楽器）、MusicNet（オーケストラ）など6つのデータセットで評価され、新たな性能ベンチマークを樹立。音楽制作における表現力と制御性を大幅に向上させる可能性を秘めています。

日本の動向：実用化を見据えた包括的レポート

国内では、株式会社Qosmoが『音楽AIの現状と可能性（2025年版）』ホワイトペーパーを公開。楽曲生成AIを中心に、制作支援、音楽解析技術までを網羅し、技術的進歩とともに著作権問題などの課題にも言及しています。研究の最先端を社会実装へつなげる視点が特徴です。

これらの動向は、AI音楽技術が単なる「生成ツール」から、クリエイターの意図を精密に反映し、多様なメディアと連携する「創造的インフラ」へと進化していることを示しています。AISA Radio ALPSでも、こうした研究の最前線が実際の音楽制作にどのような新たな風を吹き込むのか、引き続き注目し、お伝えしていきます。