独学MBA15_データ分析1/3

1. 思考(クリシン・データ)
この記事は約4分で読めます。

今回は、IE Business SchoolPeriod1で学ぶデータ分析の授業を紹介します。授業名は「意思決定のためのデータ分析」となっており、全ての授業が、意思決定に繋がるように組み立てられています。中身は非常に濃いため、記事を3つに分けています。

授業の目的

意思決定のための定量的なモデルを使えるようになること(=分析のスキルセットを身に付ける)

データ分析の初歩に始まり、最終的には大きく3つの手法(モデル)を学びました。2ヶ月ちょっとでは無理があるくらい、急激に難易度が上がっていきます。全ての授業でケースを使いながら、エクセルまたは専用ソフトを使ってハンズオンで学びます。

カリキュラムと学んだ内容

Business Analytics、Risk Analysis、Decision Theoryの3つに分けられます今回の記事は、Business Analyticsの部分を紹介します。

Business Analytics

ここでは、回帰分析(単回帰・重回帰/線形・非線形)エクセルのデータ分析ツールを使いながら学びます。

①ケース

あなたは鉄鋼メーカーの経理担当です。新しく建てる工場の製造コストを予測してください(実際は数ページのケースでした)。回帰分析を使ってこのお題に取り組んでいきましょう。

②回帰分析とは?

この記事がわかりやすいのでご参照ください。

回帰分析(単回帰分析)をわかりやすく徹底解説!

Udemy メディア:スキルアップしたい社会人のための情報サイト

③回帰分析をやってみる

データが与えられるので、目的変数(製造コスト)と、説明変数(工場の築年数、規模)との相関関係を見ていきます。ここで、一気にエクセルのデータ分析ツールで回帰モデル(予測するための数式)を作って、そのモデルの評価の仕方まで学びます。

統計学でのモデルの意味とは

統計学が わかった!:統計学に入門した方と共に学ぶ、統計学入門サイトです。

実際どうするのか?ということに関しては、独学MBAなので参考サイトも紹介しながら、回帰分析のステップを紹介します。

回帰分析のステップ

ステップ1:データ分析の目的を考える

今回は製造コストの予測という目的が定まってるので省略しますが、通常はこれがないとデータ分析の意味がないですね。

ステップ2:モデルを想定しながらデータを選ぶ

ここは仮説の段階ですね。どんな説明変数(規模?築年数?場所?)がありそうか、どの変数が強く影響しそう(規模っぽい?)か、モデルはどのくらいの精度が必要か?(誤差の許容範囲)など大枠を想定していきます。それによって使うデータも変わってきますので、重要な部分です。仮にデータ分析の専門家にお願いするにしても、あなた自身の実際の経験やビジネス面でのインサイトがここではとても重要です。

ステップ3:散布図を作る

データは何より可視化することがとても重要です。可視化により、相関があるのか無いのか、線形なのか非線形なのか、外れ値があるのか無いのか、など感覚を掴むことができ、思い過ごしも減るからです。

ステップ4:相関関係を見る

相関関係を見ましょう。この際に多重共線性に注意です(下記参照)。

*散布図、相関関係の詳細(ステップ3と4)

Excelで相関係数と回帰直線を求める

Kazushi Neichi
Department of Business Administration, Tohoku Gakuin University.

*多重共線性の詳細(ステップ4)

多重共線性とは? 〜 概要と対応方法 〜

XICA

ステップ5:回帰分析を実行

ようやく実行です。できたモデルを見ながら考察し、不必要な変数は除外するなどして何度か実行しましょう。残差の分布(特徴がないか?)に注意したり、何か重要なインサイトあるいは外れ値がないかも見ましょう(やり方は下記)。

ステップ6:ベストなモデルの選択

R-2乗値や他の指標も参考にしながら、複数のモデルから一番良いモノを選びます。

*エクセル分析ツールでの回帰分析のやり方(ステップ5と6)

【秒で使える】重回帰分析をエクセルの分析ツールでやってみよう

SiGmA Eye

グループ課題

授業では、鉄鋼メーカーのケースだけでなく、ワインのケースなども使いながらハンズオンで学びます。この単元が終わった後には、自分たちでテーマを決めて回帰分析をするレポート課題がありました。

回帰分析は自信があったのと、グループ結成直後で信頼を得たい!という目論見で、手を挙げて担当しました。

選んだのはAirbnbの部屋の価格予想で、チームで議論して仮説を設定し(1.5h)、データ収集と加工(4h)、分析(1h)、パワポ作り(3h)ほど費やしましたが、何と100点満点のスコアがもらえ、ここでチームの信頼を得ることができたのはよかったです。

おわりに

今回はデータ分析の初歩的な部分を紹介しました。こちらも全くのゼロから始めて、まだ授業の3分の1も終わっていないことを考えると、MBAのスピード感にはびっくりさせられます。Risk AnalysisとDecision Theoryについては次回以降の記事で紹介します。