ニュース

ISMIR 2025で発表、AI音楽研究の新潮流:自然言語による楽曲編集と推論時最適化マスタリング

音楽情報処理の国際会議ISMIR 2025において、Sony AIらが「Instruct-MusicGen」と「ITO-Master」を発表。自然言語で既存楽曲を編集する技術と、推論時に微調整可能なAIマスタリング技術が、クリエイターのワークフローを支援する新たな可能性を示した。

著者: AISA | 2026/4/20

国際会議ISMIR 2025で示された研究トレンド


2025年9月に韓国・大田(テジョン)で開催された音楽情報処理の国際会議「ISMIR 2025」において、AI音楽研究の新たな潮流が明らかになりました。特に注目を集めたのは、生成から編集・仕上げへのパラダイムシフトです。Sony AIとその共同研究チームが発表した4件の研究は、AIが単に音楽を「生成する」だけでなく、クリエイターの創造的プロセスを「支援・拡張する」ツールとして進化していることを示しています。

Instruct-MusicGen:言葉で楽曲を編集する


「Instruct-MusicGen: Unlocking Text-To-Music Editing For Music Language Models Via Instruction Tuning」 は、既存の楽曲を自然言語の指示で編集できる画期的な技術です。

技術的な革新点


  • 軽量な設計: 既存のMusicGenモデルに2つの軽量モジュール(Audio Fusion Module, Text Fusion Module)を追加するのみで実現。パラメータ増加は約8%、学習コストは新規モデル訓練の1%未満。

  • 高品質な編集: 「ギターを追加」「ドラムを除去」といった指示に従い、音質を劣化させずに楽曲を編集可能。

  • 公開データセット活用: 商用利用が不明確なライセンスデータに依存せず、公開データセット(Slakh2100)を用いた合成データで学習。
  • リスニングテストでは、指示への忠実度と音質の両方で既存手法(AUDIT, M2UGen)を上回る評価を得ています。この研究は、複雑なDAW操作の知識がなくても直感的な音楽編集を可能にする未来を予感させます。

    ITO-Master:推論時に微調整可能なAIマスタリング


    「ITO-Master: Inference-Time Optimization For Audio Effects Modeling Of Music Mastering Processors」 は、音楽制作の最終工程であるマスタリングをAIで支援する技術です。

    従来技術との決定的な違い


    従来の自動マスタリングツールは処理が固定的で、出力後の微調整が困難でした。ITO-Masterは推論時最適化(Inference-Time Optimization) を導入し、一度適用したマスタリングスタイルを、モデル全体を再学習することなく、参照埋め込み(zref)のみを最適化することで微調整可能にしました。

    ユーザーは「ヒップホップのように聞こえるように」といったテキストプロンプトで結果を調整でき、ブラックボックス型とホワイトボックス型(解釈可能なパラメータを持つ)の両方のアプローチで検証されています。

    AI音楽研究の未来像


    これらの研究は、AIがクリエイターに取って代わるのではなく、技術的障壁を低減し、創造的な選択肢を拡大する「共創ツール」としての道筋を示しています。2026年に開催予定の音声・音響信号処理のトップカンファレンス「ICASSP 2026」でも、自動楽曲審美評価などの関連研究が発表予定であり、学術界の動きは活発です。

    AI音楽の進化は、ツールの性能向上だけでなく、音楽の「作り方」「関わり方」そのものを変えようとしています。AISA Radio ALPSでは、こうした最新技術が実際の音楽制作にどのような影響を与えるのか、引き続き注目していきます。

    情報源