#151
GoogLeNetは、”インセプションモジュールから構成されるネットワークモデルである”。
#152
教師あり学習や教師なし学習ではなく、強化学習の枠組みで学習することが適した課題として、”歩いた距離」を報酬として、3Dの人型モデルの歩行を学習する”ことが挙げられる。
#153(検証中)
強化学習の学習手法の説明として、”方策関数ベースの手法では、各試行の最終的な結果から方策を更新するため、行動の価値は分かるが状態の価値は計算できない。”
#154
コンピュータビジョンの分野に、ある画像中の定められた物体の位置とカテゴリーを検出する一般物体検出と呼ばれるタスクがある。一般物体検出アルゴリズムの1つにR-CNNと呼ばれるアルゴリズムがあるが、R-CNNに関する説明。
R-CNNではオブジェクト候補領域の抽出にセレクティブ・サーチ(Selective Search)を利用することがある
R-CNNでは畳み込みニューラルネットワーク(CNN)から出力された特徴マップをサポートベクトルマシン(SVM)に入力しカテゴリ識別を行い、領域の推定を行う。
R-CNNでは画像全体を物体候補領域を入力とし、畳み込みニューラルネットワーク(CNN)の処理を行うため実行時間がかかる
R-CNNでは物体候補領域ごとに畳み込みニューラルネットワーク(CNN)で特徴を取り出す。
#155
方策パラメータについて報酬の勾配を評価し、より高い報酬に向かう勾配をたどって方策のパラメータを最適化する方法を方策勾配法という。”方策勾配法の手法の中に、REINFORCEアルゴリズムと呼ばれる手法がある”。
#156
ある状態から、平均的に期待できる未来の報酬の合計を計算する手法を、価値反復法という。”価値反復法のアルゴリズムでは、状態価値を0で初期化する”。
#157
誤差逆伝播法では、重みパラメータに関する勾配をえるためにまず最初に”出力に関する誤差関数の勾配”を計算し、その後、逆方向に伝播させていく。
コメント