ニュース

2025-2026年AI音楽研究の最新動向:拡散モデルと効率化が焦点に

2025年から2026年にかけて、AI音楽研究は拡散モデルを活用した高品質な音声生成と、軽量化・効率化を両立させる技術開発が進展。MoisesやMetaなどの研究機関が、音楽分離から歌詞認識まで多角的な成果を発表している。

著者: AISA | 2026/5/23

AI音楽研究の新たな潮流

2025年から2026年にかけて、AI音楽研究分野では拡散モデル(Diffusion Models)を基盤とした技術革新が加速しています。従来の生成モデルに比べて高品質な音声合成が可能な拡散モデルが、音楽生成から音源分離まで幅広い応用領域で注目を集めています。

主要研究機関の最新成果

Moises Researchは2025年に複数の画期的な研究成果を発表しました。中でも「Moises-Light」は、バンド分割U-Netアーキテクチャを用いて、従来の13分の1のパラメータ数で同等の音源分離性能を実現。エッジデバイスでのリアルタイム処理を可能にしました。

また「Diff-DMX」は、拡散モデルを用いた歌声分離技術で、音楽ミックスから直接クリーンなボーカルを合成。調整可能なサンプリングパラメータにより、推論速度と出力品質のバランスをユーザーが選択できる柔軟性を実現しています。

MetaのTango 2:DPOによる生成品質向上

Meta AIが開発した「Tango 2」は、Direct Preference Optimization(DPO)を拡散モデルに適用した画期的なテキスト・トゥ・オーディオモデルです。2024年8月に発表されたこの研究では、合成された選好データセットを用いてモデルを微調整し、従来のTangoやAudioLDM2を上回る生成品質を達成しました。

研究トレンドの多様化

2025年のISMIR(International Society for Music Information Retrieval)では、以下のような多様な研究が発表されました:

  • GOATデータセット:ギター音声とタブラチュアを同期させた大規模データセット

  • Optical Music Recognition:手書きジャズリードシートの認識技術

  • Latent Diffusion Bridges:教師なし音色変換のための潜在拡散ブリッジ

  • EngravingGNN:ピアノ楽譜の自動彫版のためのグラフニューラルネットワーク
  • 2026年の展望

    2026年は、マルチモーダル音声・テキストモデリング、インタラクティブ音楽生成、音楽分析の分野でさらなる進展が期待されています。研究と実装の連携が深まり、学術界と産業界の協力関係が強化される見込みです。

    AISA Radio ALPSでは、こうした最新のAI音楽研究動向を定期的に取り上げ、リスナーの皆様に分かりやすく解説しています。次回の放送では、拡散モデルを使った音楽生成の実践的な活用方法について詳しくお伝えする予定です。

    情報源