G検定 2020年第2回振り返り（その16）

2020.09.072021.02.17

GoogLeNetは、”インセプションモジュールから構成されるネットワークモデルである”。

教師あり学習や教師なし学習ではなく、強化学習の枠組みで学習することが適した課題として、”歩いた距離」を報酬として、3Dの人型モデルの歩行を学習する”ことが挙げられる。

強化学習の学習手法の説明として、”方策関数ベースの手法では、各試行の最終的な結果から方策を更新するため、行動の価値は分かるが状態の価値は計算できない。”

コンピュータビジョンの分野に、ある画像中の定められた物体の位置とカテゴリーを検出する一般物体検出と呼ばれるタスクがある。一般物体検出アルゴリズムの1つにR-CNNと呼ばれるアルゴリズムがあるが、R-CNNに関する説明。

R-CNNではオブジェクト候補領域の抽出にセレクティブ・サーチ（Selective Search）を利用することがある

R-CNNでは畳み込みニューラルネットワーク（CNN）から出力された特徴マップをサポートベクトルマシン（SVM）に入力しカテゴリ識別を行い、領域の推定を行う。

R-CNNでは~~画像全体を~~物体候補領域を入力とし、畳み込みニューラルネットワーク（CNN）の処理を行うため実行時間がかかる

R-CNNでは物体候補領域ごとに畳み込みニューラルネットワーク（CNN）で特徴を取り出す。

方策パラメータについて報酬の勾配を評価し、より高い報酬に向かう勾配をたどって方策のパラメータを最適化する方法を方策勾配法という。”方策勾配法の手法の中に、REINFORCEアルゴリズムと呼ばれる手法がある”。

ある状態から、平均的に期待できる未来の報酬の合計を計算する手法を、価値反復法という。”価値反復法のアルゴリズムでは、状態価値を0で初期化する”。

誤差逆伝播法では、重みパラメータに関する勾配をえるためにまず最初に”出力に関する誤差関数の勾配”を計算し、その後、逆方向に伝播させていく。