
コースの目的と全体像を確認します。また、コース成功の条件について、以下の点をお伝えします。
楽しく取り組むこと ~統計的発想・アイデアを楽しむ
テクニックだけにとらわれず、背景・哲学・意味合いを理解する
自分の手で演習に取り組んで肌感覚をつかむこと
統計とは何か、最初に簡単に歴史的な展開を振り返りましょう。様々な流れが合流して今の統計学になっていますが、社会問題へ適応されていったのは意外と遅く19世紀からです。白衣の天使ナイチンゲールや疫学の父ジョン・スノウなど、データを通じた戦いを振り返ります。
次に確率論との出会いと推測統計への飛躍について、カール・ピアソンとロナルド・フィッシャーを紹介しながら振り返ります。ここでは記述統計と推測統計の思想の違い、考え方の違いをしっかりと理解しておきましょう。
統計がここまで重要になってきたことはITの発達が大きな役割を占めています。過去のデータ分析の様子を見ながら、なぜ今「統計」が広がっているのかを考えます。
統計学習者を悩ますのは、まず数学の難しさでしょう。しかし数学は統計の本質なのでしょうか。もちろん重要であることは間違いありませんが、数学との違い、そして向き合い方について説明します。
ここから記述統計に入ります。ビジネス実務では7~8割は記述統計と言われるほど重要なパートです。まずは全体の考え方と道具立て、そして導入のためのデータの前処理について確認しておきましょう。
まずは基本的なグラフ化から確認しましょう。おそらく最もよく使われるであろうグラフに棒グラフがありますが、何を示すときに大きな効果を持つのでしょうか。また、複数データ項目の比較としてはレーダーチャートが有効です。うまく使って一段上のグラフ化を目指しましょう。
次は円グラフですが、よく使われる割に注意点の多いグラフになります。どういうときに使うと効果的か考えましょう。
時系列データを表す際には折れ線グラフやその応用として面グラフが良く使われます。ただ、時系列で「何を」表したいかによって表現の仕方や見え方が大きく変わるのも特徴です。メッセージ性の豊かな折れ線グラフの表現を学びましょう。
ここからは統計学でより頻繁に出てくるグラフの説明に入ります。まずはその代表であるヒストグラムから入りましょう。データ全体のバラツキを表すグラフですが、度数分布表から作ります。今後の学習に重要ですので、ぜひしっかり理解しておきましょう。
ヒストグラムを作る演習問題の解説を行います。いざ自分で作ってみると悩むことも多いですので、必ず一度手を動かして取り組んでください。
次はあまり有名ではないかもしれませんが、箱ひげ図を紹介します。数学を使わずにデータのバラツキを視覚化できる点で優れたグラフですので、ぜひ使い方や読み方を学びましょう。
最後に2変数の関係性を示すための散布図を説明します。今後、回帰分析などを行う場合には必須のグラフになりますので、改めて確認しておきましょう。
ここからは2つ目のデータ要約の手法である統計量の話に入ります。なぜ統計量を使うのか、まずどこから確認するのか、導入として押さえましょう。
まずは最重要の(算術)平均と中央値です。それぞれのメリット・デメリットがありますので、注意点も含めて考えましょう。平均値に関する演習問題もあります。
次にデータの肝でもあるバラツキを考えます。平均からのズレをどう測るか、昔から色々と苦労してきましたが今の統計学では分散と標準偏差で落ち着いています。特に意味を考えるうえで標準偏差は重要ですので、演習問題を通じてしっかりと理解しましょう。
国語の点数と数学の点数を比べてどちらが良いかをどのように考えればよいでしょうか。あるいは、関東支店のA君と関西支店のB君の営業成績をどう比較したらよいでしょう。平均と標準偏差を使うとすべてのデータを同じ分布に変換することが出来、比較可能になります。今後の理論的にも重要ですので、考え方に慣れておきましょう。
ここまでの内容理解のための演習問題を2つ行います。簡単ではありますが、今までの内容の意味合いを整理しておきましょう。
少し応用的な演習問題を行います。商品出荷数の日々のバラツキを踏まえ、在庫管理をどう考えるか、自由に考えてみてください。
演習問題の解説を行います。また、実際の場のための補足も加えます。
※22/10/29補記:正規分布を仮定した際のカバー率について、修正を行いました。映像だけでなく資料をご参照ください。
2変数の関係の統計量を学びます。相関係数などは有名ですが、どの程度の相関係数があれば相関が強いと言えるのでしょうか。イメージを持っておきましょう。
アイスクリームの売上高と気温には相関関係があるのでしょうか。なんとなく「あるに決まっている」ではなく、数字で示す方法を練習しましょう。
ここで改めてデータの種類について整理をしておきます。数量データとカテゴリーデータなど、扱いが異なるデータについて、処理方法を意識しておきましょう。
「ちょっと数学」コーナーでは、数学からの補足説明を加えます。数学が苦手な方は飛ばしていただいて問題ありませんが、興味のある方はぜひご覧ください。まずは平均の難しさという点でシンプソンのパラドックスを扱います。
標準偏差を学びましたので、それを使ってデータがどの範囲にどの程度存在するかの一般式であるチェビシェフの不等式を考えます。映像では深入りしませんが、これはこの後で出てくる「大数の(弱)法則」の理論的裏付けにもなる重要な公式ですので、興味のある方はご覧ください。
ここからは推測統計への橋渡しとして「確率分布」の発見と説明の話になります。母集団や母数、標本、やサンプルサイズ・サンプル数といった用語の説明も行いますが、間違えやすいところですのでお作法としてしっかり押さえましょう。
統計を勉強していると突然「確率分布」が登場するので面食らいますが、なぜ統計では確率分布を学ぶのでしょう?それは学問の方法として、世界を確率分布の集まりとして記述しているからです。経済であれば需要と供給、化学であれば原子や分子、それぞれの分野で基本単位になる要素がありますが、統計ではそれが「確率分布」であるということを理解しましょう。
具体的な確率分布の説明に入ります。まずは自然界に多く見られる確率分布からですが、確率分布の王様である正規分布から学んでいきましょう。
肌感覚をつかむため、実際のデータが正規分布に従うのかどうか、エクセルで試してみます。身長、体重、どのようなグラフになるでしょうか。度数分布表の復習も兼ねてトライしてみてください。
次に対数正規分布を扱います。少し聞きなれないかもしれませんが、株価の推移などでも使われている分布です。ここでは「加算過程」と「乗算過程」について理解し、正規分布についても理解を深めましょう。
ここでは地震などでよく解説されるべき分布を考えます。最近は「スケールフリー性」としてビジネスでもよく出てくる内容で、例えばAmazonの商品ラインナップと売れ行きの関係はべき分布に従います。ロングテールなどに興味のある方も理解を深めましょう。
次に人間生活やビジネスに大きくかかわる分布を考えます。まずは基本のベルヌーイ分布からです。これも「買うか買わないか」、「選ぶか選ばないか」という基本の購買行動を考える上では欠かせないので、ぜひ丁寧に理解しましょう。
視聴率データを使ってベルヌーイ分布に親しみましょう。また、ベルヌーイ分布は結局「比率」になりますが、これは本質的に「平均」と同じになるということも個々の演習で押さえてください。
次に二項分布です。高校数学などで学んだという方も多いと思いますが、実務での応用例もおおいものです。いくつか演習を行いながら、皆さんの実務での活かし方も想像してみてください。
ある産婦人科における出生割合を考えます。あるデータが採取された時、どのようなことを考えるか?ここの演習問題は仮説検定の前振りになっていますので、ぜひ丁寧に考えてみてください。
もう一つの演習として、商品の抜き取り検査(不良品チェック)を行いましょう。何個のサンプルで何個不良品があればアウトにするのか、全数検査できませんから、そこにはリスクが生じます。生産者危険、消費者危険の考え方を学びましょう。
一歩踏み込んで、実際にメーカー側もスーパー側も納得できる基準の取り決めはできるものでしょうか。数字を動かしながらリスクをマネージしていく感覚を学びましょう。ここは検定のサンプルサイズの部分の前振りになっています。
商品の抜き取り検査(2)の解説を行います。
二項分布の発展としてポアソン分布を扱います。これは少数の法則として、滅多に起こらない飛行機事故や交通事故などに適応される分布ですが、意外なことに故人の購買行動にも当てはまります。コンセプトを押さえておきましょう。
ポアソン分布を用いた演習の解説を行います。ポアソン分布は本質的には二項分布の拡張であるというイメージも持ちましょう。
ここからは推測統計を理解するのに必須の「標本の分布」を扱います。まずは標本平均の分布ですが、そもそも「標本平均は確率変数だ」ということ自体が理解しにくいと思います。まずはそこをしっかり押さえ、次へのステップとしましょう。
標本平均の分布には大きく「大数の法則」と「中心極限定理」という2つの法則があり、それが標本平均の分布が大変活躍する背景ともなっています。特に中心極限定理は驚くべき法則ですので、必ず押さえておきましょう。
次に標本サイズが小さいときに出てくるt分布です。ウィリアム・ゴセットが会社(ギネスビール)に秘密で「Student」というペンネームで発表したこのt分布があるからこそ、推測統計は発展しました。推定から出てくるので、ここでどんなものか概要を知っておきましょう。
χ二乗分布について扱います。もともと誤差の研究でドイツのヘルメルトが発見しましたが、その後ピアソンが再発見しています。誤差ということで、標本分散や正規分布などと深い関係をもつ重要な分布です。ここでまず概要だけ知っておきましょう。
確率分布のまとめとして、それぞれの関係と考え方を振り返ります。
「ちょっと数学」として、算術平均の理解を深めましょう。平均を「足して二で割る」とだけ考えるのは浅い理解で、実は本当の値の推定値として使われるようになったという背景があります。月までの距離を観測するときには何回やっても誤差が発生し、一定の値にはならないものです。では「本当の距離」はいくらなのか?先人たちが望遠鏡をのぞきながら考えた内容を考えましょう。
ここから遂に推測統計の世界に足を踏み入れます。記述統計の世界と何が違うのか、結果として何が重要になるのか確認しましょう。
ピンポイントで母集団を推定することを点推定といいます。ではどのような統計量が推定量として適切なのでしょうか。ここでは標本平均と不偏分散を紹介します。
記述統計量の分散はnで割るのに、母集団の分散を推定するための不偏分散はなぜn-1で割るのでしょうか。よくある悩みにいくつかの方法でお答えします。
点推定ではピンポイント過ぎて信頼性が小さいと考え、推定に幅を持たせることを考えます(区間推定)。まずは標本自体が「確率的に」採られるということをベースに、どのように母数を推定するか、流れを確認しましょう。ここでは「確率」と「信頼水準」という言葉の違いも押さえます。
母平均を推定するために、母集団の分布ではなくあえて標本平均の分布を使う理由を説明します。非常に重要な部分ですのでしっかり理解してください。
区間推定全体の基本コンセプトを押さえます。ここさえ理解できれば後はすべてこのバリエーションにすぎません。母数を推定するため、「既知の分布に従う統計量を考える」という意味を確実につかみましょう。
母平均の推定として、導入として分散既知のケースを扱います。
分散既知のケースの演習解説です。
次により一般的に、母分散が分かっていない場合の母平均の推定を考えます。ここではt分布が出てきますので、改めて復習しておきましょう。
エクセル計算になれずに挫折してしまうこともありますので、ここでt分布に関してエクセルの演習をしておきます。
分散未知のケースの演習の説明です。
分散未知のケースの演習解説です。
次に母集団が正規分布に従わないケースの母平均の推定を扱います。ここでは中心極限定理を使い、あらゆる分布の標本平均は正規分布に近づいていくということを思い出しましょう。だからこそ標本平均の分布を使っていくのです。
ここで特殊ケースとして母比率の推定を行います。比率は本質的に平均であることを考えると、母平均の推定と同じことになります。数式は少し変わりますが、中身は同じということに気づいてもらえると嬉しいです。
母比率のケースの演習解説です。
次に母分散の推定を行いましょう。ここではχ2分布を使った推定になります。統計量も確認しましょう。
エクセル計算になれずに挫折してしまうこともありますので、ここでχ2分布に関してエクセルの演習をしておきます。
母分散の推定に関する演習問題の説明です。
母分散の推定の演習解説です。
実務においては、与えられたデータで推定するしかないケースも多いですが、今から標本を採ろうとするケースも多いでしょう。その際、コストもありますし意味のある最小限のサンプルサイズにしたいものです。ではサンプルサイズはどう求めるのか、まず母平均の推定から考えましょう。
次に母分散の推定に関するサンプルサイズを考えます。分散の場合はざっくり30個が目安になるといわれることがありますが、その意味合いについて理解しましょう。実際は自分できちんとサンプルサイズを決定することになります。
これまでの推定に関し、統計量と従う分布をまとめます。
「ちょっと数学」で、t分布やχ2分布の数式を見てみましょう。ガンマ関数という複雑な関数を使いますが、その一般的な意味合いなども含めて興味のある方はご覧ください。
最後のセッションである検定に入ります。検定(あるいは仮説検定)では帰無仮説や対立仮説、仮説の採択や棄却など分かりにくい言葉が出てきます。まず流れを押さえて意味を確認しましょう。
統計における検定では、確率的な考え方をしますので、本当は違うのに仮説を受け入れてしまったり、というリスクが付きまといます。どのようなリスクがあるのか、ここで確認しておきましょう。
検定では両側検定と片側検定という考え方があります。普通に考えたら両側検定になりそうなものですが、なぜ片側検定があるのでしょうか。ある意味のチートツールとしての片側検定を理解しましょう。
ここで検定の基本コンセプトを再確認します。基本は推定と同じだということを理解しましょう。
補足として、t検定は要するに何をやっているのかについて説明しておきます。群間差と群内差を比べるという考え方はよく出てくるので押さえると理解が進むでしょう。
ここから具体的な検定手法に入ります。まず一標本の母平均の検定を考えましょう。
一標本の母平均の検定に関する演習解説です。
次に一標本の母比率の検定を行います。
一標本の母比率の検定に関する演習解説です。
一標本の母分散の検定を考えましょう。考え方は推定と同じなので復習になるはずです。
ここから二標本検定に入ります。推定では二標本というのはありませんが、検定においては標本Aと標本Bは意味のある差があるのか、ということを考えることができます(差の検定)。例えばある施策を打ったとき、その前後で効果があったのかなかったのかは重要な関心事項でしょう。そのための検定手法を押さえましょう。
まず二標本の母平均の差を検定します。t検定を行うため、等分散を仮定する必要があります。
一つ前では二標本の等分散を仮定しましたが、通常そういうことは分かりません。等分散を仮定しない場合は厳密にはt検定できませんが、近似する方法があります。ウェルチのt検定と呼ばれる手法を学びましょう。
次に、よくある事例として二標本が対応のある場合、例えば患者さんに薬を投与する前後、のようなケースを考えます。この場合は普通の差の検定をするよりも良い方法があり、それは結局一標本検定になります(対応のあるt検定)。
ここまでt検定に慣れてきていると思いますが、t検定にはロバスト性があると言われ、母集団が正規分布でなくとも、多少は問題ないということが分かっています。t分布をしっかり活用するためにも改めて確認しておきましょう。
次に二標本の母比率の差を検定します。母比率は通常、標準正規分布を考えるのでZ検定と呼ばれます。基本のコンセプトはすべて同じであることを押さえてください。
全く違う方法として、比率の差の場合はχ2検定という、χ2分布を使った検定手法があります。結論はZ検定と同じになりますが、よく使われる手法として覚えておきましょう。
χ2検定の演習解説です。
母分散の二標本検定は差ではなく比で比べることになります。ここでは新しい統計量としてF値(フィッシャーのFです)、新しい分布としてF分布が登場しますが、使い方は今までと同じです。
ここからは3群以上の母平均を比較するときの手法として分散分析(ANOVA)を学びます。「分散」分析ですが、やっていることは母平均の比較である点に注意しましょう。
二元配置の分散分析を学びます。
検定においてもサンプルサイズが問題になるでしょう。どのくらいのサンプルを取ればよいかというのは、分析の効率性やコストに直結するものです。ただ、どのくらいの差を検出したいのか(効果量)、あるいは検出できる強さをどの程度にしたいのかという設計によってサンプルサイズは大きく変わります。しっかり全体像を押さえて考え方を理解しましょう。
ここで改めてp値についてその意味を確認します。p値に関しては非常に誤解が多いもので、統計の学会からも以前から問題視されていました。検定に慣れてきたこの段階で再度ご自身の理解を確認しましょう。
今まではパラメトリック検定として、母集団に何らかの分布を仮定して標本の検定をしてきました。では母集団の分布が想定できないときはどうしたらよいのでしょうか。ノン-パラメトリック検定という手法を最後に紹介します。
このコースの最後のまとめをします。記述統計から入り推測統計まで長らくの旅路をたどってきましたが、ここまでやれば基礎力はバッチリついているはずです。基本コンセプトを理解し、こまごました数式に惑わされず、本質的に理解していただけると嬉しく思います。ぜひここから実践のステップに進んでいってください。
【受講者の悩みや問題】
ビッグデータやデータサイエンスという言葉が流行する中、統計にも興味があるがどのように学んでいけばよいかわからず困っている
何度か統計にもチャレンジしするものの、独学では挫折してしまって続けられない(「統計の教科書を読んでも頭に入ってこない・・・」)
仕事で統計的な手法を使ってはいるものの、実は中身や前提条件をあまり理解できていない
平均や分散・標準偏差といった言葉は知っているが、どうやって使うのかよく分かっていない/p値などの言葉は知っているが、きちんと説明できない
そんなあなたのために、このコースを作りました!
2.【このコースの特徴】
しっかり9時間・95レクチャーの動画コースで統計の全体像(記述統計・推測統計)をつかみ、データサイエンスの基本である「そのデータから何が言えるのか」についての統計的アプローチを理解することができる(きちんと理解したい人にとっては最適)
たくさんの演習を一緒に解いていくことで、統計の具体的な使い方についてイメージが湧く
講師の経験上、学ぶ上でのモヤモヤ、躓きやすいポイントをできる限り解消しており、納得感を持ちながら進むことができる
統計に対する抵抗感を3つに分け(①統計的発想の難しさ、②数学に対する抵抗感、③エクセルなどの関数に対する抵抗感)それぞれを意識した対策・説明を行っている
独学では難しい体系的理解を行うことで、自分がどこが分かっていてどこが分かっていないか理解できる(教科書的に使うことができる)
※本コースは「推定・検定編」ですので、回帰分析については扱いませんのでご注意ください。
※いわゆるパラメトリック統計をベースにしています。ベイズ統計やノンパラメトリック統計、あるいは機械学習やAIに関する手法などを学びたい方は本コースの購入はお控えください。
→ 詳しくは補足事項をご参照ください
3.【カリキュラムの概要】
第0章:はじめに
第1章:統計学の見取り図
第2章:記述統計とデータの見える化
第3章:確率分布から世界を見る
第4章:推測統計への飛躍(1):推定
第5章:推測統計への飛躍(2):検定
※個別の中身については各レクチャーをご参照ください。
■ 補足事項
「統計入門(推定・検定編)」になりますので、回帰分析・多変量解析は扱いません(別コースを予定)
ノンパラメトリック統計を扱います。ノンパラメトリック統計やベイズ統計、機械学習などは扱いませんので注意してください。
ボリュームの多いコースですので、統計の概要だけ知りたいという方には購入をお勧めしません。