ディープ・ニューラル・ネットワークによって
さらにハイレゾ音質に迫った新「DSEE HX」登場
楽曲データが本来持っている情報を予測・復元することで、CDや圧縮音源にハイレゾ品質の臨場感をもたらす「DSEE HX」。この技術が2018年秋、AI技術を組み込むことで、さらなる進化を遂げました。その進化の詳細を、開発に関わったエンジニアたちが紹介します。
最先端のAIテクノロジーによって
「DSEE HX」の“課題”を解決
改良された新しい「DSEE HX」についてお話しいただく前に、まずそもそも「DSEE HX」がどういったものなのかを説明していただけますか?
知念:2013年以降に発売されたウォークマンやワイヤレススピーカー、AVアンプなどから、順次搭載されているソニーの独自機能で、CD音源や圧縮音源を“ハイレゾ相当”の高解像度音源にアップスケーリングするというものです。こうした音源では音の周波数スペクトルが、高域で不自然なかたちで損なわれているのですが、それを低音の周波数スペクトルから予測して復元する機能となります。3年後の2016年には、新たに動作モードの切り替えに対応。ユーザーが、楽曲のタイプに合わせて動作モード(スタンダード/女性ボーカル/男性ボーカル/パーカッション/ストリングスの全5種)を選択することで、より効果的にアップスケーリングの効果を得られるようなアップデートを行っています。
ソニー R&Dセンター
要素技術開発部門
山本 優樹
ソニー R&Dセンター
要素技術開発部門
知念 徹
「DSEE HX(TM)」によるアップスケーリング(イメージ)
かなり普及が進んだとは言え、まだハイレゾ音源に移行しきれていないという人は多いでしょうし、そもそもハイレゾ音源が配信されていないという楽曲も少なくありませんから、とても有効な機能ですよね。そして、2018年のオーディオ製品秋冬モデルには、AI技術を組み込んだ新しい「DSEE HX」が搭載されるとのことですが、具体的にはどのように進化しているのでしょうか?
知念:2013年の「DSEE HX」投入後、ご購入いただいたユーザーや、音楽制作に携わるプロのエンジニアから多くのご意見をいただきました。それを受けて実現したのが、2016年の動作モード切り替え対応です。2018年のアップデートでは、それをさらに効果的に動作するよう、根本的な改善を施しています。
それが、1つの楽曲内で、曲の情景に合わせて動作モードを自動で切り替えて行くというもの。従来の「DSEE HX」では、「女性ボーカル」モード時には、ボーカルの声は美しく聞こえるのですが、間奏など、声が入っていないシーンでは、その効果を最大限に発揮しきれないという課題がありました。新しい「DSEE HX」では、曲の内容をリアルタイムに解析しながら、自動的に最適なアップスケーリングを行うという手法に挑戦しています。
そこにAI(人工知能)を利用しようと考えた理由について説明してください。
知念:今、検索の世界では、ディープ・ニューラル・ネットワーク(以下、DNN)というアプローチが注目を集めています。これは膨大なデジタルデータを分析することで、より有益な検索結果を導き出すという、AI技術の最先端。まさにこれが、曲の識別や、情景の変化の解析に利用できるのではないかと考えたのです。
最先端のAIテクノロジーによって「DSEE HX」の“課題”を解決
新しい「DSEE HX」は
ソニーグループだからこそ実現した
“高さ感”をプラスした、立体的なサウンド
続いて、「DSEE HX」のために、AIをどのように作り込んでいったのかについて教えてください。
知念:優秀なDNNを構築するためには、大量のデータを用いて“学習”させ、その結果を適切に“評価”するというプロセスが必要となります。そして、その両面で、音楽レーベルを擁するソニーグループの力が大いに役立ちました。ソニー・ミュージックエンタテインメントが持つ、多くのハイレゾ音源を活用し、最適なアルゴリズムを作り込んでいます。技術課題としてはとてもシンプルで、CD音源や圧縮音源をアップスケーリングし、どれだけ“正解”である、ハイレゾ音源に近付いているかということを数値目標として追い込んでいきました。
優れたDNNを作るためには、どのような工夫が必要なのでしょうか?
山本:最適なDNNを作りあげるには、楽曲数だけでなく、ジャンルの幅広さも大切です。また、アップスケーリング効果の評価に関しても、数値的な比較(客観評価)だけでなく、ミキシングエンジニアやマスタリングエンジニアら、専門家による主観評価も行っています。単に数字を追い込むだけではなく、数字に表れない部分も、実際にそうした音作りに関わるプロフェッショナルの貴重な意見を元に調整していく。これは、ソニーグループだからこそできたこと。コンテンツやノウハウを持つソニーならではの作り込みだと自信を持っています。
新しい「DSEE HX」では、1つの楽曲内で、曲の情景に合わせて動作モードを自動で切り替えて行くとのことですが、これについてももう少し詳しく教えてください。まず、ユーザーはこれまでのように再生する曲調に合わせてモードを指定する必要はなくなったという理解で正しいでしょうか?
山本:はい、その通りです。また、そのモードについても、従来のような5つの動作モードといった単純なものではなく、さまざまな情景ごとに都度、最適なアップスケーリングが行われるようになっています。「無限のモードがある」と言ったら言い過ぎかもしれませんが、ボーカルのシーンではボーカルモードといった単純なものにはなっていません。
それによって、具体的にどのように改善されるかを、もう少し分かりやすく教えていただけますか?
知念:これまでの「DSEE HX」には、音の「広がり感」や「奥行き感」を補完する効果があったのですが、実は音にはもう1つ「高さ感」という要素があり、それをうまく出すことで、より楽曲の再生に立体感を出せるということが分かっていました。
では、「高さ感」を出すためにはどうすれば良いのか。そこで重要になるのが音のダイナミクス、具体的には打楽器の音の立ち上がりです。2年前のアップデートではこれを少しでも改善するために「パーカッション」というモードを用意していたのですが、その対策方法だと、今度はボーカルが歌っているシーンで、その声を最大限に高音質化しきれないという課題がありました。
その点、シーンに応じて最適なアップコンバートを適用できる、最新の「DSEE HX」は、曲の情景に合わせてボーカルの声を美しく響かせつつ、同時に打楽器系の音の立ち上がりも非常に良くなり、高さ感をよりしっかり感じられるようになりました。ハイレゾというとどうしても音のサンプリング周波数の広さで語ってしまいがちなのですが、音のダイナミクスというのは、この立ち上がりの部分に依存するところが大きい。これをきれいに再現することで、音に立体感を感じられるようになったと自信を持っています。ここはぜひ聴き比べていただきたいところですね。
ところで、これは素朴な疑問なのですが、「DSEE HX」は、どれくらいのレベルの圧縮音源まで対応しているのでしょうか? 例えば、20年前、MP3時代に作ったような96kbpsの音源なども美しく再生してくれるのでしょうか?
山本:もちろんです。元の音質が良いほど、よりハイレゾ音質に近付くのは間違いないのですが、「DSEE HX」は、古い、圧縮率の高い音源もしっかり高音質化できます。この効果は最新の「DSEE HX」でさらに向上。「DSEE HX」なら、お手持ちのあらゆる音源をより高音質に楽しんでいただけるようにしています。
新しい「DSEE HX」はソニーグループだからこそ実現した“高さ感”をプラスした、立体的なサウンド にいいね
リアルタイムで
高音質化処理を行いつつも
連続再生時間はこれまで通り
新しい「DSEE HX」開発にあたっての技術的困難についても教えてください。
山本:実は今、家電・ITの世界ではDNNが大変な流行になっているのですが、一般的なAIを使ったサービスは、目の前のデバイスではなく、クラウド(インターネット上のサーバー)にデータを送って、その潤沢なマシンパワーでデータを処理して返してくるというものがほとんど。しかし、リアルタイムに楽曲データを解析する必要のある「DSEE HX」ではその手法は使えません。さりとて、ウォークマンなどのポータブル機器にはそこまでの処理性能はありませんし、バッテリーの消費にも影響を与えてしまいます。今回の「DSEE HX」開発に際しても、DNNの性能を最大限に引き出しつつ、消費電力を削減するのが大変でした。
AIを駆使しようとすると、どうしても消費電力が上がってしまうのですね。
知念:リアルタイムに楽曲の情景を分析し続ける「DSEE HX」では、それは避けられない副作用です。そこで、製品に搭載するに際し、細かな工夫を積み重ね、低消費電力化を追求しています。
具体的にどんな「工夫」を行ったのかを教えてください。
山本:まず開発の初期段階に、消費電力のことを度外視して、論文などで学んだ最先端のAI技術と、ソニーグループの知見をふんだんに盛りこみ、音質的に最高を目指した「究極版」を作成。当然ながら、これをそのまま製品に組み込むことはできません。このままでは数分でバッテリーが切れてしまうほどのものでしたから(笑)。そこで、次にこれをどうすれば、モバイル機器でも使えるレベルの低消費電力にできるかを考えました。
最初に手を付けたのは処理する情報量の部分。「究極版」はものすごく細かな情報を入力していくことで性能を高めているところがあったのですが、それをある程度制限しても、ほとんど効果が落ちないことが分かったのです。
また、開発時に参考にしたAIの最新論文は、ほとんどが画像を対象にしたものだったため、そこにも削減の余地がありました。画像とオーディオは信号の特徴が大きく異なるため、取るべきアプローチも異なります。そこに気がつき、オーディオに特化したDNNにすることで、さらに大きく消費電力を減らすことができました。
知念:最終的には、新しい「DSEE HX」を内蔵しても、従来モデルと全く同じ連続再生時間を実現することができました(ウォークマン NW-A50シリーズの場合)。
サーバーレベルのAI処理を、内蔵バッテリーを大きくすることなく、ウォークマンのようなモバイル機器で使えるようにしたのも、新しい「DSEE HX」の重要な機能向上と言えそうですね。最後に、読者に向けてメッセージをお願いします。
山本:新しい「DSEE HX」は、音質、使い勝手を大きく高めつつ、連続再生時間などはそのまま。これまで「DSEE HX」搭載プレーヤーを持っていなかった人はもちろん、従来の「DSEE HX」搭載機器をお持ちの方にも喜んでいただけるものに仕上がったと自負しています。
知念:音質が上がっただけでなく、モードをいちいち切り替えなくて良くなったのも大きな改善点のひとつと言えるでしょう。いろいろなジャンルの楽曲をプレーヤーに丸ごと放り込んで、ザッピングしながら聴くという人に、特にその効果を感じていただけると思います。繰り返しになりますが、特に音の「立体感」が大きく高まっていますので、ぜひ店頭などでその効果を確認してみてください。
リアルタイムで高解像度化処理を行いつつも連続再生時間はこれまで通り
新「DSEE HX」対応の商品はこちら
ソニーショールーム・
直営店舗ソニーストアでの展示紹介
ソニーの直営店舗・ソニーストアでは、実際に製品を体感いただけます。