G検定 2020年第3回振り返り（その4）

#4-1

Word2vecは、単語をベクトルとして表現することにより、ベクトル間の距離や関係として単語の意味を表現しようとするモデルであり、スキップグラム（skip-gram）とCBOW（Continuous Bag-of-Words）の２つの手法がある。このうちスキップグラムは、単語から周辺の単語を予測する。

#4-2

ディープラーニングに限らず、機械学習の手法ではハイパーパラメータの地道なチューニングが必要になる。ハイパーパラメータとは、モデルの学習の過程で決定されないパラメータである。

#4-3

ECサイトなどでは顧客の購買を促すために、機械学習によってその顧客が好みそうな商品を特定し、推薦する手法が利用されている。ユーザの行動履歴から推薦を行う手法として、協調フィルタリングがある。

#4-4

人間が持つ知識をコンピュータに持たせようとするさまざまな技術の研究がおこなわれているが、情報リソースに意味を付与することでコンピュータにより高度な意味処理を実現しようとする技術をセマンティック・ウェブという。

#4-5

交差検証法の役割と意義は以下のようなことである。

偏りの少ない正確な検証結果を得ることができる。
データ量が比較的少ない場合でも正しい検証結果を得ることができる。
時系列データに対して一般的なｋ分割交差検証を行うとデータリーケージが発生する可能性がある。

#4-6

教師あり学習や教師なし学習ではなく、強化学習の枠組みで学習することが適した課題として、「歩いた距離」を報酬として、３Dの人型モデルの歩行を学習することなどがある。

#4-7

顔認証技術についての近年の動向。

米国のサンフランシスコ市議会は、2019年5月21日、サンフランシスコ市当局による顔認証監視技術の利用を禁止する条例案を最終的に可決し、顔認証監視技術を禁止する初めての米国主要都市となった。
日本の出入国在留管理庁は、2019年7月2日、外国人の出国手続に顔認証ゲートを全国の7空港で導入することを発表し、2021年1月1日に羽田空港に試験導入することとなった。
米国のテクノロジー大手のIBM社は、2020年6月10日、警察で「対週刊誌や人種によるプロファイリング」に使われている顔認識ソフトウェアの提供をやめることを表明した。

#4-8

強化学習の具体例として、（A3C）がある。

#4-9

不正競争防止法上の「営業秘密」として、販売方法に有用な技術上の情報は営業秘密に当たりうる。

#4-10

第3次のAIブームは深層学習の時代であると言えるが、インターネットの発展とともに分析の対象となるデータ量が増えることで特にここ20年で大きく活用が進んだ技術として、統計的自然言語処理などがある。

#4-11

決定木はまるで木が枝分かれをするように、任意の処理を繰り返すことによって表されるモデルを学習によって得る手法である。決定木を分類問題に適用する際の基準は、情報利得の最大化である。

#4-12

統計量において、２つの確率変数の和の期待値はそれぞれの確率変数の期待値の和に等しい。

#4-13

畳み込みニューラルネットワーク（CNN）を用いたEnd-to-Endなアルゴリズムについて、リアルタイムな一般物体検知のためのアルゴリズムと（セマンティック）セグメンテーションのためのアルゴリズムに分類できる。

一般物体検知
- YOLO
- SSD（Single Shot Multibox Detector）
セグメンテーション
- 完全畳み込みネットワーク（FCN）
- UNet

#4-14

データ拡張（data augumentation）について。

必要な訓練データが不足している場合に、データを水増ししてディープラーニングの精度を高めるために利用する。
データによっては適応することで精度が下がってしまうようなデータ拡張もあるので適切に選ぶ必要がある。
画像処理分野では画像データをGANで生成することもデータ拡張の一種である。
自然言語処理分野にデータ拡張は存在する。

#4-15

ニューラルネットワークの過学習を抑制するテクニックとしてドロップアウトがある。ドロップアウトを用いて学習したネットワークの推論時の処理は、学習時に設定したドロップアウトの割合（１－ｐ）を各ノードの出力に（乗算）する。ここで、（１－ｐ）はランダムに選択したノードの割合である。

#4-16

以下のA、B、C、Dの用語の説明

（A）相関係数　相関の程度を表す指標
（B）偏相関係数　他の変数の影響を除いた相関の程度を表す指標
（C）分散　偏差を2乗したものの平均
（D）共分散　偏差積の全データについての平均

#4-17

ニューラルネットワークは高い表現力を持つ反面、過学習をしやすいという性質を持つため、それを改善させる方法が多数考案されている。これに関して、データを水増ししてデータ量の不足を補う手法を（データ拡張）という。

#4-18

「人工知能研究50年来のブレイクスルー」と称されるディープラーニングだが、その手法自体は第3次AIブームが盛り上がる以前から提案されていた。ここ数年になって急速な盛り上がりを見せているのには以下のような理由があげられる。

大規模な並列計算処理が可能になったことで、現実的な時間内でモデルを学習させられるようになったから。
より大規模なデータがウェブ上に公開されるようになり、データの収集が比較的容易になってきたから。
プログラミングを支援するフレームワークが広く普及したから。

#4-19

リカレントニューラルネットワーク（RNN）に期待される利点として、（より前の単語の情報を保持することで、文脈を考慮した文章の理解をすることができる）点が挙げられる。

#4-20

強化学習において、行動価値関数の関数近似に畳み込みニューラルネットワーク（CNN）を用いた手法として、（ディープQネットワーク（DQN））がある。