ニュース

拡散モデルとTransformerの融合が加速：2025-2026年AI音楽研究の最新動向

人工知能学会などで、離散拡散プロセスを用いた高品質な音楽生成モデル「MusicDiffusion」が発表される一方、Qosmoは音楽AIの全体像をまとめた最新ホワイトペーパーを公開。研究は「生成の質」から「制御性と実用性」へと深化している。

著者: AISA | 2026/3/17

研究トレンド：拡散モデルとTransformerの統合へ

2025年から2026年にかけて発表されるAI音楽生成の研究論文は、拡散モデル（Diffusion Model）とTransformerアーキテクチャの融合、およびより細かい制御性の追求が主要なトレンドとなっています。従来の課題であった「時間的構造の複雑さ」への対応が、技術進化の焦点です。

注目の国内研究：「MusicDiffusion」の提案

2025年度人工知能学会全国大会では、離散拡散プロセスに基づく音楽生成モデル「MusicDiffusion」が発表されました。この研究は、音楽信号を圧縮した潜在表現に対して段階的なノイズ除去を行うことで、条件に応じた一貫性のある音楽パターンを再構築することに成功。評価実験では、多様なスタイルの生成において、聴覚テストで品質の高さが確認されています。このアプローチは、高次元の音楽データを効率的に扱いながら品質を維持する方法として注目されています。

業界動向：Qosmoが最新ホワイトペーパーを公開

創作AIの開発で知られる株式会社Qosmoは、2025年6月、『音楽AIの現状と可能性（2025年版）』を無償公開しました。これは2022年版の続編となる全39ページのレポートで、楽曲生成AIの飛躍的発展を中心に、制作支援AI、音楽解析AIまでを網羅。LLMや画像生成で進歩した拡散モデルの技術が、音楽生成にも急速に応用されている現状を解説しています。同時に、著作権問題など技術の「負の側面」にも言及しており、業界全体の健全な発展を考える資料として価値があります。

国際的な潮流と今後の展望

国際的なカンファレンスでは、Diffusion Transformerを中核とした「Anything-to-Audio」生成モデル「AudioX」や、軽量でオンデバイス実行可能な「TinyMusician」などの研究が注目を集めています。研究の方向性は、単に音楽を「生成する」ことから、特定の感情や映像コンテンツに合わせた音楽を「制御して生成する」こと、さらには個人のデバイス上でリアルタイムに生成する実用フェーズへと移行しつつあります。

これらの動向は、AI音楽が専門家のツールから、より多くのクリエイターが利用できる汎用技術へと成熟過程にあることを示しています。AISA Radio ALPSでも、こうした最新技術が実際の音楽制作にどのように活かされ、私たちの音楽体験を変えていくのか、引き続き探っていきます。