IEのサマープログラムで、「ビックデータとAI」について学びました。初心者向けに大事なポイントがまとまっていたので、今回は授業内容をまとめたいと思います。
参考書籍
授業に加えて、下記の2冊の書籍を参照しました。
ビックデータ
まずはビックデータについて学んでいきましょう。
ビックデータとは?
ビックデータとは、一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語になります。
こちらの動画がわかりやすいです。
データ
データをめぐる4つのVがポイントになります。
- Volume:データ量
- Velocity:データの生成される速度
- Variety:データの種類
- Veracity:データの正確さ
また、データが生み出されるソースが多様化しています。
- ソーシャルメディア
- 電子機器
- スマートフォン
- センサーなど
データは現代の石油と言われるほど、とても重要なものになっていますね。
またデータの量もどんどん大きくなってきています。
- Big Data → データマイニング
- Large Data → 機械学習
- Extremely Large Data →ディープラーニング
データは、InsightやWidsdomに至るまで、きちんと活用しなければ意味がありません。
データサイエンス
データサイエンスとは、データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチで、情報科学、統計学、アルゴリズムなどを横断的に扱います。
では、ビックデータによって何が可能になるのでしょうか。
- よりよい意思決定ができる
- 隠れたインサイトを発見できる
- ビジネスプロセスを自動化できる
そして、データサイエンスは現実の問題を解決するためにあるので、「コンピューター知識」、「数学・統計的知識」、「現場(ビジネス等)の知識」の3つが全て必要になります。
AIとは?
とても難しい問いなので、「人工知能は人間を超えるか」から引用します。
私の定義では、人工知能は「人工的に作られた人間のような知能」であり、人間のように知的であるとは、「気づくことのできる」コンピュータ、つまり、データの中から特徴量を生成し現象をモデル化することのできるコンピュータという意味である。
松尾 豊「人工知能は人間を超えるか」, 2015年, p.44
「人工の知能は、原理的にはすべてコンピュータで実現できるはずだ」というのが、科学的には妥当な予想である。そして、人工知能はもともと、その実現を目指している分野なのである。
松尾, p.43
AIブーム(第一次〜第三次)
AIは過去から何度かブームが起きては消えており、現在が3回目のブームです。この辺はさらっと流し読みください。
第一次「推論・探索の時代」(1956〜1970)
推論:知識を組み合わせて新たな知識を生み出せる(例:将棋の打ち手)
探索:新しく得た知識を早く実現する手法(例:打ち手を早く考え出すことができる)
推論・探索の手法は、環境と状態が知識として与えられたときに、取るべき行動(新しい知識)を推論し、そこから実際どの行動をとるのが最善なのかを探索するもの。
巣籠 悠輔「ビジネスパーソンのための人工知能入門」, 2018年, p.41
第二次「知識の時代」(1980〜1995)
人工知能に大量の知識をインプットするアプローチ(例:質問によって病気を診断するシステム)
問題点(限界)は3つあった。
- 知識を大量に記述できない、
- 必要な時に必要な知識を取り出すのは難しい(フレーム問題)
- 記号と意味を結び付けられない(シンボルクラウディング問題)
第三次「機械学習・ディープラーニングの時代」(2000〜現在)
現在のブームです。もうブームではなく、AI時代が到来していますね。詳細は、のちほど解説します。
機械学習
機械学習とは?
機械学習は人工知能のプログラム自身が学習する仕組み=アルゴリズム。学習とは分けることと言い換えられます。
機械学習のアプリケーション
様々な分野で活用されていますね。
機械学習の分類
・機械学習は、「教師あり学習」/「教師なし学習」/「強化学習」の3つに分けられる。
①教師あり学習:入力と出力(正解)のセットを与える(例:スパムメール判定、画像認識など)
②教師なし学習:入力データのみを与える。データのパターンやルールを抽出するのが目的(レコメンド、異常検知)。
③強化学習:与えられた環境で、ある状態の時に、どのような行動を取れば良いのか学習するというのが基本的な考え方。行動の結果を報酬(スコア)で定義し、自分で学習していく(例:自動運転、ロボットの自立歩行、囲碁などのゲーム)。
*ただし、特徴量の設計(特徴を数値化すること)は人間が行う必要があり、人間の職人技に近いものがあった(これが、従来の機械学習の限界で、ディープラーニングがブレークスルーした部分)。
ディープラーニング(DL)
AI/機械学習/DLの関係
この図のような関係になっています。ビックデータ+コンピュータの能力アップ+新しいアルゴリズムの3つが掛け合わさることで、ディープラーニングが可能になりました。
ニューラルネットワークとは?
ディープラーニングとは、多層のニューラルネットワークのことで、ニューラルネットワークとは、人間の脳内にある神経細胞(ニューロン)と神経回路網を、人工ニューロンという数式的なモデルで表現したものです。この動画が一番わかりやすいです。
ここで、Googleが提供している、ニューラルネットワークを使ったお絵かきゲームで遊んでみましょう(画像をクリックすると、別タブで開きます)。
ディープラーニングは2010年代より本格化し、ブレークスルーが起きました。それは、特徴量の設計をコンピュータが自ら行う(見つけ出す)ことができるようになったことです。
例えば、画像認識だと、コンピュータが自分でネコの特徴(ネコという概念)を勝手に見つけ出し、ネコを認識できるようになる。
今までは人間の職人技でやっていたのが、機械が自動でやるようになり、精度がとてつもなく上がりました。
ディープラーニングの登場は、少なくとも画像や音声という分野において、「データをもとに何を特徴表現すべきか」をコンピュータが自動的に獲得することができる可能性を示している。簡単な特徴量をコンピュータが自ら見つけ出し、それをもとに高次の特徴量を見つけ出す。その特徴量を使って表される概念を獲得し〜後略。
松尾, p.173
AIの活用
「文系AI人材になる」によると、AIは機能4種類×役割2種類=8種類のタイプがあり、それぞれができることや特徴を押さえておきましょう。
おわりに
AIについて超ざっくり理解することを目的に本記事を書きました。入門を理解した後は、下記の書籍が実践的で面白かったです。あとは、プログラミングを少しやってみようかと思っています。
次はIEのPeriod1で受講した、デジタルイノベーションの授業を紹介します。AIに限らず、リーダーに必要なデジタルの知識を一気に網羅できる授業でした。