#91
ディープラーニングのモデルを勾配降下法によって学習させたとき、”訓練誤差”が”最小化”されるようにパラメータが更新される。しかし、”訓練誤差”では将来的に得られるデータに対する性能を評価できない。未知のデータの母集団に対する誤差の期待値は”汎化誤差”と呼ばれ、”汎化誤差”を”最小化”するようなパラメータを得ることが理想である。
#92
ディープニューラルネットワーク(DNN)が予測を行う際の計算規則では、まずデータが入力層へと入力される。次の層との間のコネクション(結合、結線)に”重み”を乗じた値の総和に”バイアス”を加える。こうしてできた値に対して”活性化関数”による変換を加えた値が次層のノードに伝えられる。
#93
多重パーセプトロンは、”順伝播型”ニューラルネットワークで、ディープラーニングモデルの原型である。多重パーセプトロンは、入力値を出力値に写像する関数で、この関数を変えることで入力の新たな表現を得ながらデータの新しい表現を学習する。
#94
ニューラルネットワークは高い表現力を持つ反面、過学習をしやすいという性質を持つため、それを改善させる方法が多数考案されている。例えば、学習の際に一部のノードをランダムに無効化する”ドロップアウト”、一部の層の出力を正規化する”バッチ正規化”、データの水増しをしてデータの不足を補う”データ拡張”、パラメータのノルムにペナルティを課す”L2正則化”などがそれにあたる。
#95
リカレントニューラルネットワーク(RNN)には、中間層が次の時刻の中間層に接続されたリカレントな結合がある。
#96
自然言語処理の文脈において、複数の単語ベクトルに、どのベクトルを重要視するかをも含めて学習させる仕組みを、”注意機構”(Attention Mechanism)という。
#97
ニューラルネットワークの学習の目的は、”損失関数”の値をできるだけ最小化するパラメータを見つけることである。
#98
パラメータ更新に関わる単位のうち、パラメータが更新された回数を”イテレーション”、訓練データ全体を繰り返し学習した回数を”エポック”という。
#99
ロボティクス分野でもディープラーニングの応用は盛んである。例えば、ロボットに適切な動作を覚えさせるために、報酬を最大化するような行動の系列を学習する強化学習が使われることがある。複数のセンサから得られた情報の処理のためにディープラーニングが活用される場合があるが、このように複数の異なる形式のデータを使った学習を”マルチモーダル”学習という。
#100
Word2Vecは、単語をベクトルとして表現することにより、ベクトル間の距離や関係として単語の意味を表現しようとするモデルであり、スキップグラム(Skip-gram)と、CBOW(Continuous Bag-of-Words)の2つの手法がある。このうち、スキップグラムは”単語から周辺の単語を予測する”、CBOWは”周辺の単語から、中心に位置する単語を予測する”モデルである。
コメント