MBA最速独学カリキュラム①-3(ビジネス定量分析_統計その1)

MBAのエッセンスを独学で学ぶカリキュラムをシリーズで紹介していますが、今回は、1.思考>ビジネス定量分析>統計その1です。なぜその1かと言いますと、今回統計の入門本を読んで、この記事では収まらないなと思ったからです。

10のカリキュラム(おさらい)

http://spian-mba.com/mba-matome

ビジネス定量分析とは?

いつものグロービスから引用します。グロービスは本科目をビジネス・アナリティクスという名称に変更したようです。

本科目では以下のポイントに主眼をおいて学んでいきます。

・ビジネスにおける仮説検証に必要な分析の本質的な考え方や視点、さらにその視点を実際に活かすために必要な定量分析の手法を理解する

・さらに、問題解決など、実務における意思決定の局面に定量分析を応用する力を養う

グロービス:https://mba.globis.ac.jp/curriculum/detail/qab/

さて、今回入門書として選んだのは、2013年に発売されたベストセラーです。

ここからは、自分のメモの要素が強くなりますが、大事だと思うこと、キーワードを中心に記していきます。引用部分はいつも通り『』で表します。

①統計学が最強の理由

統計学が最強の理由は、『どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるからだ』、とズバリ断言されている。

例えば、現代の医療では「EBM (Evidence-Based Medicine)」と言われるし、教育や野球(マネーボール)などあらゆる分野に統計学が有効に使われており、皆様も「Evidense-Based Business」をされていると思います。

目まぐるしく変わる環境の中で、最速で最善の答えを出し続ければ、市場に適応し、競合に先んじることができますね。

②サンプリング

ここでは、『全数調査 VS サンプリング調査』と紹介されている通り、適切なサンプル数を確保すれば、圧倒的低コストで真の値(仮に全数調査をした時の値)に限りなく近い数字を出すことができるというサンプリングの考え方が紹介されている。

この時に大切な考え方が標準誤差で、『サンプルから得られた割合(たとえば失業率)に対して標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の値が含まれている信頼性が約95%』という値である。

よくわからないので例で説明すると、失業率が仮に10%で、標準誤差が2.5%であれば、真の失業率は5〜15%(10%の前後2.5×2=5%)に真の値がほぼ間違いなく存在する、ということだ。

この標準誤差の考えを元に、『まずは正しい判断に必要な最小十分のデータ』で分析を最速で開始するように書かれている。

③誤差と因果関係

まず最初に、『データをビジネスに使うための「3つの問い」』が紹介される。

問1『何かの要因が変化すれば利益は向上するのか?』

問2『そうした変化を起こすような行動は実際に可能なのか?』

問3『変化を起こす行動が可能だとしてそのコストは利益を上回るのか?』

これに答えられない限りアクションを取る意味はない、とのことだ。

次いで、誤差の取り扱い、A/Bテスト=ランダム化比較実験、が述べられる。

次に、大事な2つのワード、カイ二乗検定(『「誤差でもこれぐらいの差は生じるのか」といったことを確かめる解析手法』)とp値(『「実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率」』)が紹介されている。p値が5%以下であれば、結果は偶然ではないと判断できる。

データ分析の際に、『適切な比較を行なうこと』と『ただの集計ではなくその誤差とp値についても明らかにすること』の2点を意識することが基本であると述べられている。

更に、『適切な比較とは何か』、具体的には『いったい何と何を比較すればよいのか』という問いが出される。

答えは『「目指すゴールを達成したもの」と「そうでないもの」の違いを比較』することだそうだ。つまりゴールと現状のGAPとも言えますね。

ビジネスに活かす方法として、『社内のデータを解析して経営に活かそうとするのであれば、まず部署の垣根を超えて「どのようなデータを持っているか」という情報を共有』し、データを統合して『「どう利益に繋げられるか」「何が一番利益に繋がりそうなのか」』という視点に立てれば、『自ずと何を比較し、どのような差異を明らかにするのか』という点がクリアになるとのことだ。

④ランダム化

本章では、データの取り方を工夫することと、具体的にはA/Bテスト=ランダム化比較実験が最強説が唱えられている

なぜ最強かというと、『人間の制御しうる何物についても、その因果関係を分析できるから』。

そしてランダム化を用いれば、『因果関係を確率的に表現』できるそうだ。同時にランダム化の限界(現実、倫理、感情)が記されている。

ランダム化はわかったようで、現段階でピンと来ていないので、もう少し深掘りしてみたい。

⑤ランダム化ができない時

次いでより高次な枠組みとして回帰分析が紹介される。回帰分析は『「一般化線形モデル」という広義の回帰分析の考え方で統一的に理解できる』らしいが、ちょっとよくわからない(汗)。

データ間の関連性を示し、それが誤差と呼べる範囲なのかどうかを検定するする手法はすべて、大きな枠組みで言えば回帰分析の一種である』ということらしい。ちょっとわかってきた(笑)。

回帰分析とは、『データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定する』ということらしい。うん、わかった(笑)。確かに、あるデータから知りたいことを予測できれば、最強ですね。

また、『無制限にデータを得ればわかるはずの真に知りたい値』である真値(しんち)という重要なキーワードが紹介される。ここから、『たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せる』そうだ。これはなんとなくわかりますが、すごい(!?)ですね。

ここで回帰分析の説明がされます。回帰分析の推定値(推定された切片と傾きのこと)、標準誤差(既述)、95%信頼区間(ほぼこの間に真値がある)、p値(偶然起こる確率、既に5%以下という目安が出ていましたね)というキーワードが出てきました。

次に、めちゃくちゃ重要(らしい)な図が本では記載されていました。同じものがネットにあったので引用させていただきます。

画像引用元:https://cakes.mu/posts/634

この図によって、『ほとんどのデータの関連性を分析したり、将来の結果を予測できたりする』そうだ。詳しくはリンク先に飛んで欲しいのだが、この図を理解するのが私のちょっと先のゴールとしたい。

また、2つのグループあるいは2つの値(男女など)を0と1で表すダミー変数の考え方も紹介されている。

次に、『複数の回帰係数を同時に推定する』ための重回帰分析が紹介される。現段階では、回帰分析の定義が1つのデータから他方のデータを予測するものだったので、1つのデータから複数のデータを予測するのが重回帰分析と理解しておく(あってるかな?)。

ついで『オッズ比を用いるロジスティック回帰』が出てきた。上の表を見て欲しいのだが、『もともと0か1かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした、というのがロジスティック分析の大まかな考え方』とのことだ(!!??)。

『ロジスティック回帰では、回帰係数をオッズ比つまり「約何倍そうなりやすいか」で示すということさえ知っていれば、結果の理解に問題はないだろう』。←とりあえずそれだけ知っておきます(汗)。

このあと交互作用と傾向スコアという2つが紹介されているが、現段階ではスキップすることとする。

⑥詳細(幹から枝葉へ)

『p値や信頼区間、回帰モデルといったここまでの内容が理解できれば、おそらく統計学という強力な学問の「幹」は手に入れたことになるだろう』。←まずはここまで理解することとします。

あとはキーワードだけメモしておきます。IQ、データマイニング、テキストマイニング、ベイズ派

おわりに

統計学に全く無知な男が、無謀にも本を1冊読んだらこうなりました、という記事になりました。例として、統計の授業を聞いて、さっぱりわからないから黒板を写しただけというレベルでしょう(理解が間違っているところもあるでしょう)。しかし、少なくともとっかかりはできたと思うので、深掘りしていきたいと思います。

http://spain-mba.mba-curriculum014

スポンサーリンク
レクタングル大
レクタングル大

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
レクタングル大