#131
制限付きボルツマンマシンの説明。
制限付きボルツマンマシンを積み重ねることで深層信念ネットワークが構成される。
同じ層のユニット同士は結合をもたない
3層2層(入力層と隠れ層)からなるネットワークである
無向グラフで表現される確率モデルである
#132
リカレントニューラルネットワーク(RNN)に期待される利点は、”より前の単語の情報を保持することで、文脈を考慮した文章の理解をすることができる”ことである。
#133
リカレントニューラルネットワーク(RNN)で文章データを扱う際の説明。
文字のままでは学習できないため、各単語の分散表現を用いて学習を行う。
理論的には、過去に入力された単語列を記憶することが可能である。
文章生成を行う際には、出力の確率分布から必ずサンプリングを行う。
#134
リカレントニューラルネットワーク(RNN)における教師強制(Teacher forcing)とは、訓練の際に”1時刻前”の正解データを現時点の入力として用いる手法を指す。とくに自然言語の領域では、教師強制は”翻訳”のモデルなどに適用される。
#135
リカレントニューラルネットワーク(RNN)の訓練時に利用されることがある教師強制(Teacher forcing)について。
文章生成などある時間の出力が次の時間の入力になるリカレントな接続を持つモデルに適用できる。
訓練時に入力として前の時間の出力を利用するのではなく、前の時間の正解値(目標値)を利用する。
教師強制(Teacher forcing)を利用することにより、リカレントな接続を持つモデルでは学習が安定し収束が早くなる場合が多い。
LSTM(Long Short-Term Memory)にのみ適用することが可能な訓練方法である。
#136
リカレントニューラルネットワーク(RNN)の構造において、ゲートが存在するRNNとして、”LSTM(Long Short-Term Memory)”がある。
#137
KLダイバージェンス(Kullback-Leibler Divergence)は、同じ確率変数xに対して異なる確率分布P(i)とQ(i)があるとき、下記の式で記述される。KLダイバージェンスの特徴。
\[ D_{kl}(P||Q) = \sum_iP(i)log\frac{P(i)}{Q(i)} \]- 非負の値をとる
- P(i)とQ(i)の分布がほとんどいたるところで等しくなる場合に0になる
P(i)とQ(i)に関して対称的である- P(i)とQ(i)に関してどれだけの差があるかを測る
#138
活性化関数として用いられることが多いReLU関数は、非線形な活性化関数であり、微分が不可能な点は存在しない。
#139(検証中)
LSTM(Long Short-Term Memory)について。
出力ゲートでは、更新されたメモリセルを処理してアウトプットを作る
忘却ゲートでは、メモリセルの各要素のうち、どの部分を忘却するかを決める
入力ゲートでは、メモリセルに新しいインプットとひとつ前のアウトプットを組み込む。
メモリセルを適用することで情報の長期記憶を可能にしたが情報の短期記憶が難しいという課題がある。
#140
従来の機械学習で利用されていた最適化手法である再急降下法は、一度学習にすべてのデータを利用することから”バッチ学習”と呼ばれている。しかし、ディープラーニングの場合データが大規模であることからそれが難しい。よって、確率的勾配降下法という手法が用いられることも多い。ひとつのサンプルが入るたびに学習に利用する手法は”オンライン学習”と呼ばれる。”バッチ学習”と”オンライン学習”は、どちらにも長所と短所があり、一定数のサンプル群を利用する”ミニバッチ学習”が採用されることが推奨される。
コメント