萩萩日記

世界に5人くらい存在するかもしれない僕のファンとドッペルゲンガーに送る日記

二項分布と正規分布のことをChatGPTに聞いたら大数の法則とか中心極限定理とかいろいろ教えてくれた

統計の本を読んだ。とてもわかりやすい本だった。

が、読んでる途中、試行回数が増えると二項分布が正規分布になっていうと言う話がやはりいまいちわからなかった(他の本でもわからなかった)。

と言うわけで最近ChatGPTに相手してもらってるので聞いてみた。

hagi
二項分布について知りたい。わかりやすさが評判の数学教師として、生徒に教えて。
###理解したこと
-二項分布は、ある現象が、起こるか起こらないかについての確率を扱う。
###教えてほしいこと
-試行回数が多くなると二項分布は正規分布に近くなる。
###わからないこと
-二項分布のグラフは中心から左と右のなだらかさが違う。これはたとえばサイコロを振って1の目が出る確率だと思うと、1とそれ以外について出る確率が違うので、形が左右対称にならないのはわかる。でも、試行回数を増やすと正規分布に近づくということは、どんどん左右対称になっていくことだと思う。確率が違うのに、なぜそうなるの?

ChatGPT
素晴らしい質問ですね。それは大数の法則中心極限定理という二つの重要な統計的原則から理解できます。

大数の法則は、試行回数が多くなるほど、平均的な結果が期待値に近づくという法則です。これは二項分布において、例えばコイントスで表が出る確率が0.5であれば、試行を重ねると50%の出現率に収束するということを意味します。

一方、中心極限定理は、試行回数が大きくなるにつれて、二項分布(または他の任意の分布)から得られる平均値が正規分布に従うようになるという法則です。二項分布の形状が左右非対称でも、試行を重ねることによってその形状は正規分布に近づき、左右対称になります。

これら二つの法則があわせて作用し、二項分布が試行回数が増えるにつれて正規分布に近づくという現象を説明しています。ですから、初めの状況(サイコロの例)は大数の法則によるもので、後の状況(左右対称になること)は中心極限定理によるものです。

萩原
サイコロを例にとると、1が出る確率は1/6で、それ以外が出る確率は5/6。確率が違うのに、左右対称な正規分布になるのがわからない。

ChatGPT
理解しました、その混乱は確かに理解できます。ここで重要なのは、サイコロを1回振る場合の確率(1/6と5/6)と、サイコロを何度も振る場合の分布は、全く異なる概念であるということです。

サイコロを何度も振るとき、我々が注目するのは「1が出る回数の分布」です。具体的には、たとえば100回振ったときに1が何回出るか、という問題です。この場合、各試行(サイコロを振ること)は独立しており、1が出る確率は1/6です。これが二項分布になります。

そして、この「1が出る回数の分布」を試行回数が非常に大きくなると、中心極限定理により、その分布は正規分布に近づきます。それは試行回数が増えると、最も確率が高い回数(期待値)を中心に分布が形成され、その周りに自然と左右対称の形状が出来上がるからです。

要するに、1回のサイコロの振りと何度も振る場合とでは、考えるべき確率の対象が異なるため、それぞれ異なる分布を持つことになります。

萩原
てことは、試行回数が増えると、1が出る確率が、1/2になるってこと?

ChatGPT
いえ、それは違います。サイコロを振る回数が増えても、「1が出る確率」自体は変わりません。1が出る確率は1回振るたびに1/6のままです。

ただし、何度も振った場合に、「1が出る回数」の分布は正規分布に近づくということです。例えば、サイコロを600回振るとき、1が出る期待回数は100回(1/6 * 600)となります。600回振ったときに1が出る回数が100回前後に集中するという意味です。

そして、この「1が出る回数」の分布が、試行回数が増えると正規分布に近づき、左右対称になるのです。この点が、二項分布が試行回数を増やすと正規分布に近づく理由です。ただし、サイコロを振るたびの「1が出る確率」自体は、試行回数に関わらず1/6のままです。

萩原
ああ、わかった。二項分布が正規分布に近づくという話は、あくまでもサイコロの目が1になるという事象についてのものなんだね。

ChatGPT
はい、その通りです。具体的には、「サイコロを何度も振ったときに1が何回出るか」という事象についての話です。試行回数を増やすにつれて、「1が出る回数」の分布が正規分布に近づくというのが中心極限定理の内容です。各試行(サイコロを振ること)での「1が出る確率」自体は試行回数に関わらず変わらないという点が重要です。

萩原
理解できたと思う。ありがとう。

ChatGPT
どういたしまして!分かりにくいところがあったら何でもお尋ねくださいね。数学の概念はしっかり理解しておくと、後の学習がとてもスムーズになります。これからも何かあったらお気軽にご質問ください。

萩原
あでも、もうひとつ質問。

試行回数が少ないとき、サイコロの1の目が出る確率で二項分布のグラフを描いたら、左に寄ったグラフになった。

サイコロの6の目が出る確率で二項分布のグラフを描くと、右に寄ったグラフになるの?同じく、3の目でやったら、真ん中寄りのグラフになるの?

ChatGPT
あなたが「左に寄った」、「右に寄った」、「真ん中寄り」と表現しているものが、二項分布のピーク(最も高い確率を示す部分)を指していると解釈します。

二項分布のグラフのピークは、期待値(試行回数 × 各試行の成功確率)に対応します。したがって、サイコロを振る回数が固定である場合、1の目が出る確率(1/6)で描いた二項分布のピークは6の目が出る確率(1/6)で描いたものと全く同じ位置になります。それは、成功する確率(1が出る、または6が出る)が同じだからです。

一方で、3の目が出る確率(1/6)を使った場合も、ピークは全く同じ位置になります。これは、1, 6, 3すべてが等しい確率(1/6)で出現するためです。

したがって、「左に寄った」、「右に寄った」、「真ん中寄り」などというグラフの形状は出現しないはずです。それぞれの数が出る確率が同じである限り、二項分布のピークは同じ位置に来ます。

萩原
試行回数が少ないと、左に寄ったグラフになるんしゃないの?

ChatGPT
確かに、二項分布の形は試行回数や成功確率により変わります。しかし、「左に寄る」や「右に寄る」は、一般的に確率の非対称性を示すもので、二項分布ではそれぞれの試行(この場合、サイコロを振ること)での成功確率(1が出る確率、6が出る確率など)が等しいときには発生しません。

あなたが見ている形状の変化は、おそらく、試行回数が少ない場合に二項分布が離散的(特定の点でのみ値を持つ)であるため、確率のピークが特定の試行回数の成功回数(例えば、1回、2回、3回といった具体的な回数)に対応する点に現れることで生じるのかもしれません。

しかし、試行回数が増えると二項分布は正規分布に近づき、そのピークは期待値(試行回数×成功確率)に近づきます。これは、サイコロの各面が出る確率が等しい場合(つまり、公正なサイコロ)であっても同様です。

つまり、「左に寄る」や「右に寄る」は、それぞれの試行での成功確率が等しくない場合(例えば、コイン投げで表が出る確率が裏が出る確率と異なる場合など)に見られる現象です。この場合、成功確率が高い方にピークが寄ります。

萩原
あ、わかった。うまく説明できてなかった。

いま聞きたいのは、サイコロの1の目が出る場合と、それ以外の目が出る場合を対比した状況。

10000回サイコロを振ったら、1670回くらい1の目が出ると思うけど、このとき、二項分布のグラフは左寄りになる。

これが、試行回数が増えるとピークが中心に寄って正規分布になるというのがわからない。

ChatGPT
ああ、理解しました。その混乱は確かに理解できます。

ここで大切なのは、「左寄りになる」とは「1が出る回数が少ない方に集中する」ことを意味すると理解します。これは1が出る確率が1/6であるために起こります。確かに、10000回振った場合、1が出る回数の最も可能性が高い値(つまり二項分布のピーク)はおおよそ1667(=10000/6)になります。そのため、全試行回数に対して見ると、グラフは「左側」に見えます。

ただ、試行回数が増えると、二項分布の形は正規分布に近づきますが、それはピークの位置が中心に移動するという意味ではなく、分布の形状が「ベルカーブ」(正規分布の形)に近づくという意味です。それは、中心極限定理の結果です。

つまり、試行回数が増えると、二項分布の形状が正規分布に近づくことと、二項分布のピークが常に試行の中央にあるわけではないこと、この二つは矛盾しないのです。

あなたの例で言えば、試行回数が増えると、1667回付近の出現頻度が最も高いことがさらに明確になり、その周りに「ベルカーブ」形状が形成されるようになります。ただし、グラフ全体としてはまだ左側にピークがあり、「左寄り」に見えることは変わりません。

萩原
なるほど。1667回を中心とした、正規分布のグラフになるということか。

ChatGPT
はい、その通りです。あなたがサイコロを10000回振るという試行を行い、その中で1が出る回数を記録すると、その結果はおおよそ1667回を中心に正規分布の形を描くことになります。1667回はこの場合の期待値(試行回数 × 各試行の成功確率)となり、その周りにデータが集中する傾向があります。

これは中心極限定理の結果で、独立したランダムな試行をたくさん繰り返したとき、その結果の合計(または平均)が従う確率分布は正規分布に近づくというものです。この理論により、実世界の多くの現象が正規分布に従う理由が説明されています。

読み返してみたら、やっぱりあんまり理解できてない気もする。

あと、そもそもChatGPTが嘘を言ってないかも気になる。