2016-11-22 22:50:00

進捗報告

[トップページ] > [雑記] > 進捗報告

少し考えていたことを Twitter に書いたところ、Google DeepMind の方(WaveNetの著者の一人)から WaveNet へのリンクが飛んできて、ちょうど気になっていたことを聞くことができました。

@hiroharu_kato: なぜニューラルネットワークは画像認識に強いのかと考えてみると、線形変換と ReLU の繰り返しでは扱いにくいような処理の多くは既にカメラと撮影者が済ませているからだ、という気もしてくる。たとえば生の音声波形を扱うのが苦手なのはその辺りなんじゃないか。

@heiga_zen: @hiroharu_kato https://deepmind.com/blog/wavenet-generative-model-raw-audio/

@hiroharu_kato: @heiga_zen こちらについては sigmoid と tanh を組み合わせることで非線形性の強さに対処していて、たとえば ReLU だとあまりうまくいかないのではないかと思っているのですが、いかがでしょうか。

@heiga_zen: @hiroharu_kato それはあるかもしれませんね。Gated CNNにしないとあまりうまく動かなかったと言ってた記憶があります。

特にフォロー関係があったわけではありません。インターネットは面白いですね。


上記については、たとえばガンマ補正がまったく行われていないデータが与えられたときに畳み込みと ReLU だけのネットワークはそれにうまく対処できるのか、マイクで拾った生データを与えられる状況はそれとどう異なるのか、何か技術的に重要的な話があるように思います。


輪講準備と称して Efros 先生の講義資料を読んでいます。また、研究に少しだけ関係するネタで Advent Calendar に参加することにしたので、そちらも進めています。


[トップページ] > [雑記] > 進捗報告


Cpyright (C) 2014-2016 Hiroharu Kato. All Rights Reserved.