独学MBA14_統計入門１

MBAのエッセンスを独学で学ぶカリキュラムをシリーズで紹介していますが、今回は、1.思考＞データ分析＞統計その１です。

データ分析の科目とは？
①統計学が最強の理由
②サンプリング
③誤差と因果関係
④ランダム化
⑤ランダム化ができない時
⑥詳細（幹から枝葉へ）
おわりに

データ分析の科目とは？

本科目では以下のポイントに主眼をおいて学んでいきます。

・ビジネスにおける仮説検証に必要な分析の本質的な考え方や視点、さらにその視点を実際に活かすために必要な定量分析の手法を理解する

・さらに、問題解決など、実務における意思決定の局面に定量分析を応用する力を養う
グロービス：https://mba.globis.ac.jp/curriculum/detail/qab/

今回、入門書として選んだのは、2013年に発売されたベストセラーです。

Amazonで詳細を見る

ここからは、本の内容をさらっと触れていきます。深く理解しようとはせず、まずは頭の中に目次を作るイメージで読み進めてください。引用部分はいつも通り『』で表します。

①統計学が最強の理由

統計学が最強の理由は、『どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるからだ』、とズバリ断言されている。

例えば、現代の医療では「EBM (Evidence-Based Medicine)」と言われるし、教育や野球（マネーボール）などあらゆる分野に統計学が有効に使われており、皆様も「Evidense-Based Business」をされていると思います。

目まぐるしく変わる環境の中で、最速で最善の答えを出し続ければ、市場に適応し、競合に先んじることができますね。

②サンプリング

ここでは、『全数調査 VS サンプリング調査』と紹介されている通り、適切なサンプル数を確保すれば、圧倒的低コストで真の値（仮に全数調査をした時の値）に限りなく近い数字を出すことができるというサンプリングの考え方が紹介されている。

この時に重要な考え方が標準誤差で、『サンプルから得られた割合（たとえば失業率）に対して標準誤差の２倍を引いた値から標準誤差の２倍を足した値までの範囲に真の値が含まれている信頼性が約95%』という値である。

例で説明すると、失業率が仮に10%で、標準誤差が2.5%であれば、真の失業率は5〜15%（10%の前後2.5×2=5%）にほぼ間違いなく存在する、ということだ。

この標準誤差の考えを元に、『正しい判断に必要な最小十分のデータ』で分析を最速で開始するように書かれている。

③誤差と因果関係

ここでは、『データをビジネスに使うための「３つの問い」』が紹介される。

問１『何かの要因が変化すれば利益は向上するのか？』

問２『そうした変化を起こすような行動は実際に可能なのか？』

問３『変化を起こす行動が可能だとしてそのコストは利益を上回るのか？』

Sun

これに答えられない限りアクションを取る意味はない、とのことだ。

次に、大事な２つのワード、カイ二乗検定（『「誤差でもこれぐらいの差は生じるのか」といったことを確かめる解析手法』）とp値（『「実際には何の差もないのに誤差や偶然によってたまたまデータのような差（正確にはそれ以上に極端な差を含む）が生じる確率」』）が紹介されている。一般に、p値が5%以下であれば、結果は偶然ではないと判断できる。

＊カイ二乗検定を、具体例をもとに解説してくれています。理解できない場合は飛ばしてOKです。

独立性の検定―最もポピュラーなカイ二乗検定
統計WEB

データ分析の際の基本（本書より）

『適切な比較を行なうこと』（『「目指すゴールを達成したもの」と「そうでないもの」の違いを比較』すること＝ゴールと現状のGAP）

『ただの集計ではなくその誤差とp値についても明らかにすること』

ビジネスでは、『社内のデータを解析して経営に活かそうとするのであれば、まず部署の垣根を超えて「どのようなデータを持っているか」という情報を共有』し、データを統合して『「どう利益に繋げられるか」「何が一番利益に繋がりそうなのか」』という視点に立てれば、『自ずと何を比較し、どのような差異を明らかにするのか』という点がクリアになるとのことだ。

④ランダム化

本章では、データの取り方を工夫することと、具体的にはA/Bテスト＝ランダム化比較実験が最強説が唱えられている

なぜ最強かというと、『人間の制御しうる何物についても、その因果関係を分析できるから』。

そしてランダム化を用いれば、『因果関係を確率的に表現』できる。同時にランダム化の限界（現実、倫理、感情）が記されている。

⑤ランダム化ができない時

次いでより高次な枠組みとして回帰分析が紹介される。回帰分析は『「一般化線形モデル」という広義の回帰分析の考え方で統一的に理解できる』らしいが、ちょっとよくわからない（汗）。

『データ間の関連性を示し、それが誤差と呼べる範囲なのかどうかを検定するする手法はすべて、大きな枠組みで言えば回帰分析の一種である』ということらしい。ちょっとわかってきた（笑）。

回帰分析とは、『データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定する』ということらしい。うん、わかった（笑）。確かに、あるデータから知りたいことを予測できれば、最強ですね。

また、『無制限にデータを得ればわかるはずの真に知りたい値』である真値（しんち）という重要なキーワードが紹介される。ここから、『たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せる』そうだ。

次に、回帰分析の説明がされます。回帰分析の推定値（推定された切片と傾きのこと）、標準誤差、95%信頼区間、p値というキーワードが再び出てきました。

次に、めちゃくちゃ重要（らしい）な図が本では記載されていました。同じものがネットにあったので引用させていただきます。

この図によって、『ほとんどのデータの関連性を分析したり、将来の結果を予測できたりする』そうだ。詳しくはリンク先に飛んで欲しいのだが、この図を理解するのを短期的なゴールとしたい。

また、２つのグループあるいは２つの値（男女など）を０と１で表すダミー変数の考え方も紹介される。

次に、『複数の回帰係数を同時に推定する』ための重回帰分析が紹介される。

ついで『オッズ比を用いるロジスティック回帰』が出てきた。上の表を見て欲しいのだが、『もともと０か１かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした、というのがロジスティック分析の大まかな考え方』とのことだ（！！？？）。

『ロジスティック回帰では、回帰係数をオッズ比つまり「約何倍そうなりやすいか」で示すということさえ知っていれば、結果の理解に問題はないだろう』。←とりあえずそれだけ知っておきましょう（汗）。

⑥詳細（幹から枝葉へ）

『p値や信頼区間、回帰モデルといったここまでの内容が理解できれば、おそらく統計学という強力な学問の「幹」は手に入れたことになるだろう』。←はい、ありがとうございます！

おわりに

統計学に全く無知な男が、無謀にも本を１冊読んだらこうなりました、という記事です。難しいかもしれませんが、とっかかりはできたと思うので、カリキュラムに沿って（あと４つ記事あり）、深掘りしていきましょう。

後編はこちらからどうぞ。