12月8日に、またDTMの世界に新たな扉が開かれました。これまでもSynthesizer VをはじめとするAIを使った歌声合成のソフトはありましたが、今回誕生したMelisma(メリスマ)は、ヴァイオリンやオーボエ、チェロ……といった楽器を合成するシステムのβテスト版。もちろん、こうした楽器を再現するソフトとしては、これまでサンプリングを使った音源が数多くあり、まさにリアルな音で演奏できていました。でもサンプリングだと、たとえばタイやスラーでつないだ長い音符などとなると、どうしても限界があったし、ピチカート、トリル、フォール…といったアーティキュレーションでも表現の範囲が限られていました。
このMelisma(β)では、実際の演奏をディープラーニングしたものを元に演奏音を合成する、いわゆる生成AIのシステムで、サンプリングでは不可能だったリアルな演奏サウンドを作り出すことができるのが最大の特徴。さらにオーボエからチェロにモーフィングさせる、といったシンセサイザでの合成とはまったく異なる、アコースティックだけど世の中に存在しない音を作ることも可能なのもユニークなところです。このMelisma(β)を開発したのは神楽音楽出版というベンチャー。その代表であり、開発者の中迫酒菜(@Nakazako)さんにもお話を伺ってみました。
楽器の演奏サウンドを作り上げる生成AI、Melismaがβテストという形でスタートした
サンプリング音源にはできない表現力を持つMelisma
Melisma(β)(以下Melisma)はヴァイオリンやオーボエ、チェロといった楽器をリアルに生成するAIによるサウンド生成システムです。まずは、以下にデモがあるので、ぜひそのサウンドを聴いてみてください。
いかがですか?お分かりいただけたでしょうか?普段、ヴァイオリンやオーボエ、チェロといったサウンドをKONTAKTなどのサンプリング音源で作っている方であれば、すぐに、このMelismaの凄さが分かると思います。
たとえば端的な例でいうと、上記のデモ曲「Violin 01 Solo (v1) – Aria on G」。これはバッハの「G線上のアリア」ですが、冒頭のヴァイオリンのロングトーンで、約8秒間、音が出ていますが、とってもリアルですよね。普通これだけの長さのサンプリングがある音源ってないため、どうしても途中からループに入ってしまってリアルではなくなってしまいます。またクレッシェンドで音が大きくなっていくのととともに、音が移り変わっていくのも従来の音源だと難しい思います。
「Oboe 01 Solo (v2) – Ave Maria (Gounod)」はオーボエのソロであるグノーのアヴェ・マリアですが、これを聴いてみると、やはりG線上のマリア同様、ロングトーンの自然さがよく出ているほかブレスやキーノイズも非常にリアルです。
一方で、「Strings (v2) – telo sewi (tori-pochun)」にしてもヴァイオリンとチェロのアンサンブルになっていますが、やはりサンプリング音源では不可能な滑らかさを実現しているし、ピチカートのタイミングの自然なブレや、たまにピッチを外すパートがあるところなども、人間に近い感じです。
さらに、開発者である中迫さんのオリジナル曲だという「Strings (v2) – Pops 02」はキレのある走句やスタッカートとレガートが混ざっていてもキレイに演奏されています。ここでは数本を重ねているとのことですが、トレモロなども生成ごとにタイミングがズレるため、非常に厚みも出てリアルですよね。
いずれのサウンドなどを聴いても、本当に弾いているとしか思えないサウンドになっていることが分かると思います。
プラグイン型ではなく、MusicXMLを使いクラウドでのWAV生成
このMelismaは、生成AIということもあって、VSTiとかAUのプラグインというわけではありません。MelismaのサイトでWAVファイルを生成して、自身のDAWなどに読み込んで使う形となっています。
そのMelismaを使うには、まずMelismaサイトに行って、ユーザー登録をした上で、ログインします。その上で演奏させたい楽曲のMusicXMLデータをMelismaの生成ページにドラッグ&ドロップで持っていくだけです。
Melismaの生成ページにおいて、MusicXMLファイルをドラッグ&ドロップすることでWAVファイルを生成できる
MusicXMLとは、楽譜作成ソフトの標準形式。SibeliusやDorico、またフリーウェアのMuseScoreなどで作成したデータをMusicXMLで保存の上、Melismaに読み込ませた上で、「生成」ボタンをクリックすればいいのです。
あらかじめスコアを作成し、MusicXML形式で保存しておく
必要に応じて詳細設定ができるので、ここでパラメータを調整することも可能になっています。
生成ボタンを押して、しばらく待つとWAVファイルとMIDIファイルが生成され、ダウンロードできるようになっています。まずは、Melismaサイト内にサンプルのMusicXMLファイルが2つあるので、これらで試してみるとよさそうです。
ただし、無料においては1回あたりの生成時間が15秒~30秒(サーバーの負荷状態によって変動がある)となっています。この時間制限を解除するには月額課金が必要となっています。現在、Melismaが開発段階にあるということもあり、開発応援目的の以下の4つのプランが用意されています。
月間最大書き出し時間 | 1回あたりの最大書き出し時間 | 月額 | |
無料プラン | 10分 | 30秒以下(サーバー負荷による) | 0円 |
開発応援30プラン | 30分 | 210秒(3分30秒) | 300円 |
開発応援60プラン | 60分 | 210秒(3分30秒) | 1,000円 |
開発応援150プラン | 150分 | 210秒(3分30秒) | 2,000円 |
開発応援1200プラン | 1200分 | 210秒(3分30秒) | 10,000円 |
2023年12月現在 / β版につき仕様や料金は変更になる場合があります
ちなみに生成されるMIDIデータは、生成された後にピッチの補正をしたい場合に利用するためのもの。ただし、現在のMelisma(β)ではまだサポートされておらず、今後搭載される機能になるようです。
そんなMelismaをどんな目的で作ったのかなど、開発者である中迫酒菜さんにインタビューしてみました。
Melisma開発者、神楽音楽出版の中迫酒菜さんインタビュー
--このMelisma、音を聴いてみて驚きましたが、どういう経緯で作られたのですか?
中迫:私自身は普段は作曲家として、ゲームなどの音楽を作っていて、クラシック向けの作曲や編曲も行っているほか、最近はVTuberのオリジナル曲などを作っています。一方、家に320種類の楽器があり、発音の仕組みや楽器の歴史を研究するなど楽器研究家でもあります。そうした作曲活動をしている中、KONTAKTをはじめとする、さまざまなサンプリング音源を使っているものの、スラーをつなげていくのは編集がとっても難しいな…とずっと思っていました。こうしたものも生成AIならうまくいくのでは……、とちょうどStable Diffusionが登場する少し前に思いついたのです。AIなら絵も描けるし、Synthesizer Vなどもあるので、できなくはないだろう、と。
--とはいえ、中迫さんは作曲家であって、エンジニアというわけではないですよね。
中迫:ただ、趣味で小学生のころからポケコンをいじったり、マイコンを使って工作するなどしていたので、コンピュータはずっと慣れ親しんでいました。ただ、アセンブラやC言語など、比較的低級言語を得意にしてきた…というのはありました。がAIをやるにはPythonがいいらしい、というのを知り、それから勉強するようになったんです。試しにこれを使って取り組んでみたのですが、最初は全然ダメで、ノイズしか生成することができませんでした。が、ずっと続けていたところ、ある時を境に、突然うまく音が出るようになったんです。そこで、これはちゃんとしたデータセットを作らなくては、と思い立ったのが今年の4月でした。
--それは、最近のAIで話題になっているような、野良データを学習させると権利的な問題があるからですか。
中迫:権利問題というのもそうなのですが、そもそもヴァイオリンなどは野良データすらないんですよね。AI学習に適した楽器のデータセットの研究も重要な項目のひとつでした。いろいろな奏法が均等に含まれている楽譜と、均一で上等な音質のレコーディングデータがあって、はじめてAI学習をうまくしていくことができるので、自分で作ろう、ということになったのです。大学も音大に行っていたし、こうした作曲の仕事をしていることもあり、気軽に頼むことができる奏者が周りに多いこともあって、友人のヴァイオリン奏者にお願いして、ここのスタジオに来てもらい、計101曲のレコーディングをし、トータル5時間28分26秒のデータセットを作りました。この100ファイルをひたすら学習させた結果、かなり実用レベルになったと思い、今回βテストの公開をすることになりました。ちなみに、このMelismaのビジネスモデルの特徴としては、奏者にも分配していく、という点があります。売上から必要経費を差し引いた上で、データセットの時間の割合によって売上金を分配していく予定です。奏者から仕事を奪うのではなく、うまく共存できる世界を作っていければと思っています。
Melismaのヴァイオリンの学習データの演奏をしている宇佐見優さん
--実際音を聴いても、すごくリアルですよね。
中迫:そうですね。そのヴァイオリンに続いて、チェロ、オーボエもここでレコーディングしていきました。生成させてみると、音のつながりは非常にいいんです。ソロだと、やや頼りない感じがする面はありますが、弦楽合奏とかをさせると非常に迫力も出てきますね。ピッチカートとかトレモロとかのアーティキュレーションもきれいに弾くし、フォールなんかにも対応していて、すごくいい表現ができると思います。強弱も非常にリアルに演奏することができます。ボリュームでの強弱ではなく、表現としての強弱が出せるんですね。その指示は楽譜上で行い、クレッシェンドを入れると、それにしたがってだんだん大きくなっていくわけです。スラーやスタッカートなどの音楽記号についてはMIDIファイルだとどうしても難しいため、MusicXMLで書き出した渡す形になります。サーバーの負荷状態にもよりますが、30秒の曲を10秒ほどで書き出してくれますね。
同じくMelismaの学習データを演奏している志村樺奈さん(左)と小野江良太さん(右)
--WAVファイルとMIDIファイルの2つが書き出せますが、このMIDIファイルのほうはどう使うのですか?
中迫:現状まだ実装できていないのですが、今後ピッチデータの修正にこれを使えるようにします。このMIDIファイルにはピッチの揺らぎが記載されているので、これをDAWで編集した上で戻すことで、修正できるようになる予定です。
生成した結果、WAVファイルとMIDIファイルのそれぞれがダウンロードできるようになっている
--MusicXMLって、結構方言があって、互換性についてよく問題が指摘されていますが、このMelismaの場合、どうですか?
中迫:まだ検証途中で、とりあえずSibeliusとMuseScoreでは問題なく動作しています。Finaleについてはまだ未検証で、Doricoについては少し不具合が出ているので確認中です。
※2023.12.19追記
Dorico 5.1では正しく動作することが確認できました。
--ロングトーンだけでも、サンプリング音源にはできない音が生成できることがよくわかりますが、Melismaならではというような表現はあるのでしょうか?
中迫:MusicXMLでは途中で楽器を持ち替えることが可能です。普通は区切りを経て持ち替えるわけですが、ロングトーンの途中で持ち替えることができるため、モーフィングさせることができます。現代音楽や新しい音響を求めている人には面白いのではないでしょうか?今回は公開していませんが、ボーカルを学習させて歌わせることもできました。こうすることで、ボーカルとヴァイオリンのモーフィングといったこともできました。また、AIが想像するピッチシフトというのもあります。いわゆるピッチ補正やピッチシフトではなく、たとえばスコアをそのまま1オクターブ下げるという指示をすると、AIが生成途中に音程を下げてくるので、まったく新しい音色での演奏がされるんですよ。
--今回、開発応援ということでいくつかのプランがありますが、長時間を利用したいケースというのはどんなときになるのでしょうか?
中迫:弦楽合奏の場合、アンサンブルだと複数の演奏が必要となります。たとえば3分の曲を書き出すのに1stヴァイオリンが8人だとすれば、それだけで24分。それが4パートあれば96分……と結構な時間を食うことになるので、それなりの時間が必要になると思います。このMelismaでは何回やっても絶対に違う結果が出てくるのも特徴です。それを重ねていくことで厚いサウンドを作り出すことが可能です。なおまったく同じものを作りたいときにはランダムシードというパラメータがあるので、それを使えば同じものを生成することは可能になっています。
自宅に320種類もの楽器があるという中迫さんは自身でもそれぞれの楽器の演奏をする
--今後のMelismaの展開などについても教えてください。
中迫:まずはみなさんに使っていただきながら、成長させていきたいと思っています。またデータセットも増やしていく予定で、フルートのレコーディングが来年1~2月に控えているほか、バリエーションとして別の奏者によるヴァイオリン、さらにヴィオラも開発に向けて動いています。一方でボーカルについても対応できるようにしていきたいと考えています。一方、ユーザーが増えてきたときに対応できるよう、AWSサーバーを使ってのスケーラビリティについても準備してあります。ただ、将来的に、各ユーザーがスタンドアロンで使いたい…ということになれば、それへの対応というのも検討してきたいですね。
--ぜひ、今後の展開を楽しみにしています。