2018.9.5

COLUMN [3]

コンピュータが音を聞き分けるということ(中編)
- 深層ニューラルネットワークと人間の比較から見えてくるもの -

Tomohiro NAKATANI, Shoko ARAKI & Makio KASHINO

COLUMN   2018.9.5  |   HOME > COLUMN

最近、深層ニューラルネットワーク(DNN)の登場で、音声認識の精度が一気に向上しつつある。しかしDNNの中身はブラックボックスになっていて、なぜ、そのような結果を導き出すのかがわからない。一方で、人間の音声認識のしくみ自体も、謎に包まれている部分がいまだ多くある。そうしたなか、近年、DNNで構築したモデルと人間とを比較する研究が注目されている。両者を比較することで、これまで謎に包まれていた人間の不思議が明らかになるかもしれない。


人間はなにを手がかかりに音を分けているのか

柏野 音声認識技術の進展には目覚しいものがありますが、一方でコンピュータと比較して、改めて人間の特異な能力に驚かされます。

たとえば、人間は、同時に複数人の人がしゃべっている短い音声を聞いた場合、認識できるのはせいぜい2人までで、3人に増えた途端に、何人でしゃべっているのかわからなくなってしまいます。すなわち、混合音をすべての音源に分けることに関して言えば、前編で中谷さんに紹介していただいた「ブラインド音源分離技術」の圧勝ですね。

人数当てに挑戦!


ところが、「ブラインド音源分離技術」は、音の空間的な位置の情報を使っているので、一つのマイクで収録したモノラルの信号に対しては使えません(上の「人数当て」のデモはモノラルなので,実はブラインド音源分離技術では分離できません)。しかし人間は、モノラルの信号でも,ある程度の長さがあれば,それなりに音源を聞き分けることができます。

そのときに人間が使っている一番重要な手がかりとなるのが、「調波構造」です。たとえば、100 Hz、200 Hz、300 Hzといった単純な整数比の周波数成分を持つ音、すなわち調波構造を持つ複合音が鳴っているなかに、一つだけ423 Hzの音が鳴っていたら、それだけ「別の音」として浮かび上がるんですね。楽器の音や人の声などの多くは調波構造を持つため、調波構造が成立する音というのは一つの音源から発せられた音である可能性が高いのです。

一方で、人間は空間的な位置情報を音源分離に使うのは、あまり得意ではありません。調波構造を成す周波数成分のうち、左のスピーカーから奇数次の成分(100 Hz、300 Hz、500 Hz……)、右のスピーカーから偶数次の成分(200 Hz、400 Hz、600 Hz……)を同時に聞かせれば、溶け合って一つの音として聞こえます。しかし、右の成分の周波数を、例えば210 Hz、420 Hz、630 Hz……というように、整数比を保ったまま少しずらすと、高さや音色の異なる二つの音が左右に分かれて聞こえます。それくらい、音源分離においては、調波構造の手がかりというのは、空間的位置の手がかりよりも優位に働くのです。
Link:Illusion Forum / ピッチと音脈分凝3

音源分離における調波構造の重要性

人間が音源分離に用いている手がかりには、調波構造のほかにも、開始の同時性(同時に開始される周波数成分は一つにまとまる)、振幅変調(振幅のゆらぎ)の共通性(振幅変調が共通した周波数成分は一つにまとまる)などがあります。脳は、これらの手がかりを総合的に勘案して、周波数成分をまとめるか/分離するかを決めているのです。そのあたりの柔軟性が人間の一つの特徴ですね。

そういう意味では、深層ニューラルネットワーク(DNN)を使った「SpeakerBeam」の方は、人間にかなり近いふるまいをしているように思えます。人間と同じように、空間情報にはあまり重きを置かずに、周波数スペクトル(音の周波数成分の強さを表したもの)の特徴から音を探していると捉えてよいのでしょうか?

中谷 まずDNNの重要なポイントというのは、長い時間、広い周波数の間でのデータの関係性をうまく捉えることができる点にあると私は考えています。DNNでは、同時に起こること、必ず同時には起こり得ないことなどを、非常に高次元のデータ、すなわち周波数全体や時間経過の中で起こるさまざまなパターン(出力された音素やある単語と単語のつながりなど)として、確率モデル的な枠組みで捉えることができます。

つまり、スペクトルの特徴や時間のパターンを広い範囲で見て、起こり得るものを探し当てることができる、というのがDNNと従来のアプローチとでは大きく異なる点と言えます。

深層ニューラルネットワークは人間に似ているか?

中谷 では「SpeakerBeam」が具体的に何を捉えているのか、というと、じつのところよくわかっていません。

—えっ、中身がわからないのですか?

中谷 そうなのです。DNNでは特徴量の抽出を自動で行うため、プロセスがブラックボックスと化していて、何に着目して結果を導き出したのかがわからないのです。おそらく、その人の声の基本周波数(調波構造を持つ複合音の中でもっとも周波数が低い成分)はどれくらいの値を取りやすいのかとか、話すスピードはどれくらいになりやすいのかといった、話者のなんらかの特徴に基づいて、ネットワークの重みをどのように変更するのかを自動的に決めるわけです。つまり、DNN自身が必要な情報を取り出し、選択して学習していくことでうまくいく。

逆に、話者の特徴を区別するための特徴量を人間があらかじめ教えると、ある程度まではうまくいくのですが、ベストな性能が出ないのです。DNNというのは何を使っているのかよくわからないけれど、大量のデータの中から自らつながりを見つけて学習することで、汎用的に使えるしくみになっているのだと思います。

柏野 そもそも、人間が混合音の中から特定の音声を探すときに、何を手がかりにしているのかということ自体、いろいろな可能性が考えられますからね。単純に、その人の発話のパターンを覚えておいて探しにいくのか、基本周波数のパターンや、振幅包絡(振幅のゆるやかな変化)のパターンをトレースしているのか。

いずれにせよ、時間軸上での滑らかな変化というのは、一つの手がかりになると思います。人間は、そういうものに対するなんらかのフィルタのようなものを持っている可能性があると思いますが、それとDNNのしくみがどの程度似ているのか、似ていないのか、とても気になるところです。

中谷 DNNについてはさまざまな研究がありますが、画像処理の例でよく言われるのは、下のレイヤー(層)では、たとえば方向のようなものを検出して、次のレイヤーではその方向と方向のつながりを認識し、上層に行くほど複雑な形を認識していく、と。したがって、DNNとして実現されているものは、そうしたシンプルな機能からより複雑な機能をかたちづくるためのマッピング(対応付け)を学習していると言えます。

同様に、音声認識のDNNにおいても、最初に調波構造のような単純なものを検出し、上層にいくほど音声の時間的変化のパターンのような複雑なものを認識しているという解釈はあると思います。

一方で違う解釈をすると、そもそもDNNの中身はブラックボックスなので、調波構造などとは関係なく、とにかくなんらかの特徴を拾ってきて、それに合う最適解を出しているだけなのかもしれません。

—もしかすると人間と似た機能を持って認識しているかもしれないし、まったくそうではないかもしれないのですね……。

柏野 じつは、DNNと人間の比較というのは、いま、非常に面白いホットな研究分野なのです。最近も、音楽のジャンルや単語を分類するという課題をDNNに学習させたところ、人間の聴覚系に見られる機能分化に似た構造が生まれたという、マサチューセッツ工科大学のMcDermottらの研究論文が『Neuron』に掲載されていました。DNNを課題に最適化していった結果、形成されたネットワークの構造が、人間の神経生理学的・解剖学的な知見と符合しているというのは、非常に興味深いですね。

人間の聴覚系にも複数の階層があり、同時にパラレルな機能分化もあります。さらに双方向の情報の流れもあることから、聴覚系で情報処理がどのように進んでいくかについては、まだまだ解明されていない点が多々あります。最初、内耳の蝸牛である程度の周波数成分を検出するとか、脳幹から視床を経由して聴覚野に向かう際に情報が分かれ、階層的に処理をしているといった流れはわかっていますが、その途中でどのような処理をして音源分離をしているのか、いまだ詳しいことはわかっていません。

我々もこの点に関して研究を進めてきましたが、処理の全貌を理解するには、ガイドラインとなるモデルが必要だと感じています。その意味では、人間と機械の両側から攻めて追究していくというのは、面白いアプローチです。DNNの進展により、ようやく機械と人間について共通の話ができるようになってきたと感じています。

深層ニューラルネットワークと比較しながら、人間の機能を探る

中谷 いまやDNNは人間の音声をすべて覚えるくらいの能力を備えていて、人間の声の特徴を教えてやれば、その声を分離することができるようになっています。さらに、雑音が入っている音声を、DNNを通してきれいな音声に換えるということもできる。つまり、DNNというのは、あらゆる音声のパターンを記憶し、所望の音声をつくり出すことができるマシンだということ。この機能を応用して、柏野さんがおっしゃるように、人間の聴覚系との関連を調べるというのは大変有用だと思います。

一方で、機械と人間で何が必然的に違っているのかと言えば、人間は同じ耳を一生使い続ける点です。ロボットであれば人間と条件は同じかもしれませんが、通常、音声認識に使われる集音センサは、ICレコーダーやマイクロフォンなどさまざまです。つまり、その都度変わってしまう空間的パターンをどう扱うのか、というのも今後の技術課題として非常に重要だと思います。

柏野 人間も、耳は同じものを使い続けているとはいえ、残響や雑音の多い/少ないなど、環境はいろいろなので、DNNと似た問題を抱えているとは思います。にもかかわらず、さまざまな変動要因があるなかで、人間はつねに恒常性、安定性を保っている。これこそが、音声認識に限らず、人間の知覚の非常に優れた点と言えます。

視覚にしても、一つの対象物であっても照明や見る角度などによって見え方は大きく異なるのに、なぜ同じモノだと認識できるのか。そのために生物がどういう処理をしているのか、DNNと比較することで見えてくるとしたら面白いですね。

中谷 そういった意味では、NTT CS研の寺島裕貴さんらの研究も非常にタイムリーですね。

柏野 ええ。寺島さんがやっているのは、聴覚系の末梢や中枢の神経応答特性を、DNNで構築した神経系の計算機モデルと比較しながら説明付けしようという試みです。もちろん完全に一致するわけではなく、両者にはズレがあるわけで、そこを突き詰めていくのが面白い。このような統計的な見方、すなわちたくさんの学習の結果から生物の神経系をどこまで理解できるのか、非常に興味深いところです。まさにいまこそ、人間をより深く知ることができるチャンスだという気がしますね。

中谷 そのズレが、現状の人間と機械の違いなわけですからね。

人間のメカニズムがわかれば、工学的にも役立ちます。音の良し悪しや聞き取りやすさなども、いまは最終的に人間しか評価できませんが、技術の良し悪しを人間しか判断できないというのは、研究を進めるうえでの障害になっています。人間のメカニズムが理論的に明らかになり、機械で評価できるようになれば大変役に立つ。その橋渡しをするのが、DNNなのかもしれません。

柏野 そのときに方法は二つあって、まず人間の機能を解明してから、それを模してDNNでモデルをつくるというもの。もう一つが、まず人間の評定者がサンプルのなかから良し悪しを選んで順番を付け、それと同じようなパフォーマンスが出せるようにDNNを訓練する方法です。後者の場合も、人間と同じようなふるまいをするDNNができる可能性がありますし、その中身を調べることで人間の機能を明らかにきるかもしれない。いずれ、なにかの目利きだとか専門家だとかといった人の挙動を再現できるDNNができるかもしれませんね。

中谷 もっとも、現状はまだ人間のような汎用性を身につけたDNN、AIというのは誕生していません。これからどう進展していくのか、興味深いところです。

(取材・文=田井中麻都佳



Next:» COLUMN [3] コンピュータが音を聞き分けるということ(後編)- 機械との比較からわかる人間の特異性 - / Tomohiro NAKATANI, Shoko ARAKI & Makio KASHINO

中谷 智広 [ Tomohiro NAKATANI ]
» Website
» NTT コミュニケーション科学基礎研究所 / メディア情報研究部 / 信号処理研究グループ グループリーダ(上席特別研究員)
1991年、京都大学大学院工学研究科修士課程修了。博士(情報学)。残響除去技術 Weighted Prediction Error (WPE) 法など、多数の音響信号処理アルゴリズムを考案。日本オーディオ協会協会大賞 (2012年) 他受賞。

荒木 章子 [ Shoko ARAKI ]
» Website
» NTT コミュニケーション科学基礎研究所 / メディア情報研究部 / 信号処理研究グループ 主任研究員
2000年、東京大学大学院工学系研究科修士課程修了。博士(情報科学)。 実環境における音源分離や音声強調について、多数のアルゴリズムを考案。 平成26年度 科学技術分野の文部科学大臣表彰 若手科学者賞 "音響信号のブラインド音源分離とその応用に関する先駆的研究"他受賞。

柏野 牧夫 [ Makio KASHINO ]
人間情報科学・認知神経科学
» Website
» スポーツ脳科学プロジェクト
1964年 岡山生まれ。1989年、東京大学大学院人文科学研究科修士課程修了。博士(心理学)。 NTTフェロー (NTT コミュニケーション科学基礎研究所 柏野多様脳特別研究室 室長)、東京工業大学工学院情報通信系特定教授、東京大学大学院教育学研究科客員教授。著書に『音のイリュージョン~知覚を生み出す脳の戦略~』(岩波書店、2010)、『空耳の科学―だまされる耳、聞き分ける脳』(ヤマハミュージックメディア、2012)他。

RELATED CONTENTS

COLUMN 2018.9.5

コンピュータが音を聞き分けるということ(前編)

- 騒がしい環境下で世界一の音声認識精度を達成 -

Tomohiro NAKATANI, Shoko ARAKI & Makio KASHINO


人間の機能を模した深層ニューラルネットワーク(DNN)をつくることができれば、人間をより深く知ることができるかもしれない。しかし一方で、人間はかなり粗い情報から正解を導き出すことができたり、機械よりも圧倒的に少ない時間で言語を習得したりできる。はたして、機械は人間にどこまで近づくことができるのか。「情報」と「人間」を結ぶ新しい技術基盤の構築をめざすNTTコミュニケーション科学基礎研究所(CS研)の研究者たちが、現代科学の究極のテーマについて語り合う。

» READ MORE

COLUMN 2018.9.5

コンピュータが音を聞き分けるということ(後編)

- 機械との比較からわかる人間の特異性 -

Tomohiro NAKATANI, Shoko ARAKI & Makio KASHINO


NTTコミュニケーション科学基礎研究所の中谷智広さん、荒木章子さんらの研究グループでは、さまざまな音が混じり合った音声から、雑音などの不要な音を取り除きながらそれぞれの音を取り出す音源分離の技術や、音声認識の邪魔になる残響を取り除く技術の開発などを手がけている。最近では、深層ニューラルネットワーク技術を使った画期的な手法により、世界コンペティションで1位を獲得した。スマートフォンやスマートスピーカーの音声認識の向上に資する研究について話を聞いた。

» READ MORE

MUSIC 2018.8.16

Auditory Illusion in Music

- [2] カクテルパーティとモテトゥス、そして「音楽的な耳」 -

Risa MORIYA


「音楽的な耳」を持つ、ということはどのようなことでしょうか。音楽家にとって必要不可欠な聴取の能力について、脳科学で言われるところの「カクテルパーティ効果」という切り口から考察してみます。

» READ MORE

MUSIC 2018.8.16

Musical illusion

- Compliment -

Leonid ZVOLINSKII


この曲例は、沢山の音の中から必要な音として選択された任意の音に集中することができるという、私たちの聴覚の能力を実証するものです。曲のタイトル ≪Compliment≫ は、≪complementary≫という言葉から、言葉遊びで付けたものですが、作品の気分を反映しているだけではなく、作曲にあたって用いたテクニックを暗に示しています。コンプリメンタリー、つまり相補的な原則が曲全体に浸透し、複数のリズムがモザイク状に融合されて全体的なリズムを形作っています。同様に、それぞれ異なるロジックで作ったハーモニーを持つ楽器たちが織り合わさって、全体のハーモニーが生成されています。

» READ MORE

MUSIC 2018.8.16

Musical illusion

- The Dream of Flowers -

Leonid ZVOLINSKII


今回はコンテクストを持つ芸術としての音楽についてお話したいと思います。 音楽は時間の中で動くもので、絶えずそれぞれの具体的な瞬間や場面までと、その後に鳴り響くものというコンテクスト(脈絡、文脈)の中に存在するものです。それは音楽の水平とよばれる時間軸で、そこでは出来事自体のみならず、その秩序も作品全体の印象を形作ります。まさにこの効果のおかげで、時には長調の音楽も大きな悲しみとして感じられることもあります。例えば、チャイコフスキーの交響曲6番の1楽章の最後を思い出してみましょう。それ以前に出てきた全てのドラマチックな衝突を背景として、全体としては、勝利というよりも、この音楽の「主人公」との明るくも悲しい別れとして感じられます。この部分だけを聴くならば、何倍も喜びに満ちて感じられるはずです。

» READ MORE


SERIES