IEに入学し、6ヶ月間のCore Period(必修)、5週間のLab Periodを終えると、残りは3ヶ月のElective Periodに突入します。100以上の選択肢から、自分の学びたい科目を取ることができます。
そこで今回は、「Data Analytics for Business Leaders」の授業内容を詳しく紹介します。
コンセプトとスキルを身につけるために、下記の4つを順番に学んでいきます。
- データ分析・ビジネスデータ・ビジネスシステムを理解する
- データ分析の手法を使い、インサイトを得て、結果を読み解く
- データの可視化する
- データをストーリーで伝える
1. データ分析とビジネスデータ
イントロダクション
まずはじめに、分析の定義を押さえて置きましょう。
分析とは、意思決定のためのインサイト(洞察)を得るために、仮説を持ちながらデータを活用すること
授業を元にSun作成
では、こうしたインサイトを得るためにはどうしたら良いのでしょうか。
- 直感を使う
- データを使う
この2つを組み合わせながらインサイトを探していきます。
データ分析のルール
データ分析のルールとして次の5つが挙げられます。
- データの安全性とプライバシー
- 説明ができること
- バイアス
- データエンジニアリング
- 関係者のマネジメント
こうした観点を押さえながら進めていきましょう。
ビジネスデータ
ビジネスデータとは、企業が計画を立てて、運営・実行していくために使われるデータになります。特徴としては、目的を持って特定のフォーマットで保管されているが、価値を生み出すためには(生)データを加工して使えるようにする必要があります。
ビジネスデータは以下の4つに分類されます。
- 保管
- 統合
- コンプライアンス
- 分析
分析モデルは、データ・アルゴリズム・倫理・前提条件から構成されます。前提条件には確率が深く関わるので、確率の基本を理解しておく必要があります。
2. データ分析の手法
前の章で見たように、データ分析には流れがあります。順番に進めることで、「価値のあるインサイト」を得ることができます。
統計学の知識や前提を元に、ビジネス分析を進めていきます。前提となる正規性、等分散性、データの独立性の意味は理解しておきましょう。
分析を進める前のデータ処理の考え方
データは質がとても重要ですが、どのような方法で質を高めることができるのでしょうか。
- サンプリング
- 特徴エンジニアリング
- 新しいデータを獲得し、既存データに加える
- 合成データ(実際のデータを真似て作られた人工のデータ)
わからない単語は、適宜ググって理解しておきましょう。
①Descriptive Analytics
これは、「過去に起きたことを明らかにするための分析」です。以下の表の通り、質問とツールを組み合わせてデータを解き明かしていきます。基礎的な用語なので、知らない単語があれば調べておきましょう。
質問 | ツール |
データのアベレージは? | 平均 |
よいデータセットか? | 歪度、尖度 |
Accurate=正確か?(真値) | 標準偏差 |
Precise=精確か?(再現性) | 標準誤差 |
外れ値か? | Z値 |
よい推測ができるか? | 信頼水準、信頼区間 |
相関関係とAprioriアルゴリズム
前者は相関係数(-1〜1の間)で現れ、後者はお茶とおにぎりは一緒に買われるというように、頻繁に出てくる組み合わせを見つける方法です。
Big Data Magazine
推測統計学
これは、サンプルデータを用いて全体を推測するやり方です。国勢調査や視聴率などあらゆるところで使われていますね。
こうした「推定」の際に、一番最初に決める数字が「有意水準(間違った答えを出す確率α)」と「信頼区間(1-α)」であり、通常は有意水準5%、信頼区間95%を用います。これは、100回に5回は間違える可能性あり=95%が信頼区間におさまるということです。
もう一つ大事なのが「検定」です。検定とは、「ある仮説が正しいのかどうか統計学的に検証する」ことです。詳しくはこちらの記事をどうぞ。
AVILEN
よく使う検定が「t検定」なので押さえておきましょう。これは、2つの母集団の平均値に有意差があるかどうか(別モノなのかどうか)を調べます。有名なA/Bテストもt検定を使っています。
AVILEN
3つ以上の母集団で調べるのが「分散分析」です。中級者向けなので、気になる方はググってみてください。
②Diagnostic Analytics
これは、過去のデータを見ながら「なぜ起きたのかを明らかにするための分析」です。
③Predictive Analytics
これは、統計学的モデルを使って「将来何がどのくらいの確率で起きるのかを予測する分析」です。絶対値ではなく「可能性」や「確率」を予測します。目的変数(Y)を説明変数(X)で表します。
代表的なものが回帰分析ですね。詳しくはこちらをどうぞ。
Machine Learning
Predictive Analysisのツールである機械学習は、ポイントだけ紹介します。
- 機械学習とは、大量のデータを使ってパターンを認識し、意思決定をすること
- 回帰分析とは異なり、人間はほとんど介在しない
- AI>機械学習>ディープラーニング
- 機械学習は、教師ありと教師なしがある(答えを機械に与えるか否か)
- 教師ありは、回帰や分類など、目指す状態に基づいて作る予測モデル
- 教師なしは、クラスタリングなどデータのインプットのみに基づく
詳しくは、下記の記事にまとめています。
④Prescriptive Analytics
これは、次世代の分析とも言われ「予測される事態に対して、何をしたらよいかを処方」します。
“What should be done?” or “What can we do to make something happen?”という問いに答えるのが、Priscriptive Analysisになります。
最適化
ベストのSolutionを見つけ出すのが最適化です。これは、制約がある場合と制約がない場合があります。
制約付き最適化とは、与えられた制約条件の下で、目的関数を大または最小にする解を求めることです。例えば工場で2つの製品を作っています。それぞれコストや売値が決まっており、材料も限られている中(=制約あり)、何をどれだけ作れば利益が最大になるか、などが計算で求められます。
制約がない最適化は、感度分析を行います。ある説明変数が変化すると、目的変数がどれだけ変化するかを計算します。
最適化はエクセルで計算ができます。制約付きの場合はソルバーを使い、制約なしの場合はデータテーブルやゴールシークを使います。
悪い分析
悪い分析(失敗)を避けるための、7つの注意点があります。
- バイアスを避ける
- データの時系列に注意
- 外れ値に注意
- 検証できない仮説は避ける
- 比較するグループ間の違いに注意
- 交絡変数に注意
- アクションドリブンで分析する
わからない単語はググっておきましょう。
3. データの可視化
データの可視化には、「レポート」と「ダッシュボード」の2種類があります。
レポート
レポートには、「表形式のレポート」と「集計レポート」の2種類あります。SAPなどのERPソフト、IBMなどのBIソフト、SalesforceなどのCRMソフトで出力したデータがこれに当たります。
ダッシュボード
ダッシュボードとは、KPIをわかりやすくビジュアルやグラフで表現したものです。コックピットのダッシュボードも当てはまります。大事な情報(≒KPI)を一目で把握できるサマリーだと考えてください。
ダッシュボードの目的は4つあります。
- 比較すること
- トレンドの把握
- データの分布を見ること
- 相関関係を把握すること
データを可視化するツールとして、色々なチャートや図を使っていきましょう。
4. データをわかりやすく伝える
せっかくデータを分析して、素晴らしいインサイトを得られたとしても、伝え方を工夫しないと、「聞き手」を説得してアクションを起こしてもらうことはできません。そこで使えるテクニックが「ストーリーテリング」です。
ストーリーテリングとは、伝えたい思いやコンセプトを、それを想起させる印象的な体験談やエピソードなどの“物語”を引用することによって、聞き手に強く印象付ける手法になります。データのストーリーテリングの6ステップを紹介します。
- オーディエンスのニーズや知識レベルを理解すること
- データと前提条件を提示すること
- 可視化すること
- リターンとリスクを説明すること
- ストーリーで語ること
- Call to Action(聞き手がとるべきアクション)を提示すること
プレゼンの手法を学んだ「ストーリーテリングの授業」の内容同じことを言っていますので、気になる方はこちらをどうぞ。
おわりに
Period1のデータ分析の授業をベースに、ビジネスにおけるデータ分析に特化した内容を学びました。データ分析とは?に始まり、データ分析の手法、データの可視化、データのストーリーテリングという一連の流れを押さえました。