基本的な確率ルール

  • はじめに
  • 確率のルール
    • 確率ルールOne(任意のイベントA,0≤P(a)≤1)
    • 確率ルールTwo(すべての可能な結果の確率の合計は1です)
    • 確率ルールThree(補数ルール)
    • 複数のイベントを含む確率
    • 確率ルールThree(補数ルール)
    • 確率ルールThree(補数ルール)
    • 確率ルールThree(補数ルール)
    • 確率ルールThree(補数ルール)
    • 確率ルールThree(補数ルール)
    • 確率ルールThree(補数ルール)
    • 確率ルールThree(補数ルール)
    • 確率li>
    • 確率ルールFour(互いに素なイベントの加算ルール)
    • ロジックを使用してP(aとb)を見つける
    • 確率ルール Five(General Addition Rule)
  • 確率の丸めルール
  • 要約しましょう
CO-6:確率、ランダム変動、一般的に使用される統計的確率分布の基本概念を適用します。
LO6.4:イベントの確率をこのイベントが発生する可能性に関連付けます。
LO6.5:イベントの確率を推定するために相対頻度アプローチを適用します。
LO6.6: イベントの経験的確率を見つけるために、基本的なロジックと確率のルールを適用します。
Video:Basic Probability Rules(25:17)

前のセクションでは、関心のある母集団からの無作為なサンプルを使用して実験を行うことから生じる不確実性

私たちは、イベントの確率(例えば、ランダムに選択された人が血液型O型を持っているイベント)は、イベントが長い一連の試験で発生する相対的 そこで、多くの個人からデータを収集して、血液型O型の確率を推定します。

このセクションでは、イベントの確率を見つけるための基本的な方法と原則を確立します。また、確率を計算するために使用できる確率の基本的なルールのいくつかをカバーします。

また、確率を計算するために使用することができます。

はじめに

公正なコインを三回投げる古典的な確率の例から始めます。

頭と尾は、このシナリオでは、各トスのために均等に可能性があるので、我々はすべての可能な値をリストし、確率を計算するために、このリストを使

このコースでは、データと統計(理論的な確率ではない)に焦点を当てているため、将来の問題のほとんどでは、確率を計算するために要約されたデータセット、通常は頻度表または双方向表を使用します。

例: P>{HHH,THH,HTH,HHT,HTT,THT,TTH,TTT}

次のイベントを定義しましょう。

イベントA:”Hを取得しない”

イベントB:”hを取得する”

イベントC:”少なくともhを取得する”

イベントB:”hを取得する”

イベントC:”hを取得する”

イベントC:”hを取得する”

イベントC:”hを取得する”

イベントC:”hを取得する”

イベントC:”hを取得する”

イベントC:”hを取得する”

イベントC:”hを取得する”

イベントC:”hを取得する”

イベントC:”hを取得する”p>各イベントは、実際に実験が生成しようとしている結果についての声明であることに注意してください。 実際には、各イベントは、可能な結果のいくつかのコレクション(サブセット)に対応します。イベントA:「Hがない」→TTT

イベントB:「Hがない」→TTT

イベントB:「Hがない」→TTT

: “正確に一つのHを取得”→HTT、THT、TTH、THH、HTH、HHT、HHH

イベントC:”少なくとも一つのHを取得”→HTT、THT、TTH、THH、HTH、HHT、HHH

ここでは、イベントA、B、Cの視覚的表現です。

私たちは、"S"というラベル付けされた大きな矩形を持っています。サンプル空間の全体。 「C」の外側のすべては、「TTT」のみを含むイベントAと一致します。 Cの内部には、「HHH」、「THH」、「HTH」、「HHT」、およびイベントBを表す円が表示されます。Bの内部には、「HHT」、「THT」、および「TTH」があります。"B内のすべての項目がC内にもあるので、CはBを完全に囲むことに注意してください。"S" which represents the entirety of the sample space. Inside this rectangle we have a circle labeled "C." Everything outside of "C happens to coincied with event A containing only "TTT". Inside of C, we see "HHH," "THH," "HTH," "HHT," and a circle representing event B. Inside B are "HHT," "THT," and "TTH." Note that all of the items inside B are also inside C, so C fully encloses B.

イベントのこの視覚的な表現から、イベントBのすべての結果がイベントCの結果でもあるという意味で、イベントBがイベントCに完全に含まれていることが簡単にわかります。また、イベントAは、共通の結果がない、または重複がないという意味で、イベントBとCとは離れていることに注意してください。 この時点では、これらは注目すべき観測に過ぎませんが、後で発見するように、それらは非常に重要なものです。新しいイベントを追加した場合はどうなりますか:

イベントD: “最初のトスでTを取得する”→THH、THT、TTH、TTT

上の図にイベントDを追加した場合、どのように見えますか? (答えへのリンク)

覚えておいてください、HとTは各トスで均等に可能性が高く、8つの可能な結果があるので、各結果の確率は1/8です。

確率についてこれまでに学んだことと一緒に、図や各イベントの結果のリストを使用して、次の質問に答えることができるかどうかを確認しp>

次のようにして学習します: あなたがそれらの質問に正しく答えることができたならば、あなたはおそらく確率を計算するための良い本能を持っています! この知識をどのように適用するかを学ぶために読んでください。

そうでない場合は、このセクションでこのスキルを開発するのを手助けしようとします。

コメント:

  • イベントCでは、「少なくとも1つのヘッドを取得する」という可能性のある結果が1つしかないことに注意してくださ 確率規則、特に補数規則について話すときに、これを再び取り上げます。 この時点で、このシナリオでは、これら2つのイベントがどのように「反対」であるかを考えてみてください。可能性のある結果を列挙できるという理由だけで、これは各結果が均等に可能性が高いことを意味するものではないことを認識することは非常

    これは、前のページで提供した毎日のショークリップの(面白い)メッセージです。 しかし、これについてもう一度考えてみましょう。 そのクリップでは、Walterは2つの可能な結果があるので、確率は0.5であると主張しています。 二つの可能な結果は、

    • 世界が原因で大ハドロン衝突型加速器の使用に破壊されます
    • 世界が原因で大ハドロン衝突型加速器の使用に破壊されません

    うまくいけば、これら二つの結果が均等に可能性がないことは明らかです!!

    より一般的な例を考えてみましょう。

    例:先天性欠損症

    我々はランダムに三つの子供を選択し、我々は子供のいずれも任意の先天性欠損を持っていない確率に興味があ

    私たちは、子供が先天性欠損症で生まれたことを表すためにDという表記を使用し、nは先天性欠損症で生まれた子供を表すために使用します。

    コイントスで行ったのと同じように、可能な結果をリストすることができます。

    {DDD、NDD、DND、DDN、DNN、NDN、NND、NNN}

    イベントDDD(三人の子供はすべて先天性欠損症で生まれている)とNNN(子供のどれも先天性欠損症で生まれていない)も同様に可能性が高いですか?P(NNN)がP(DDD)よりもはるかに大きいことは合理的です。これは、P(N)とP(D)が同じ可能性の高いイベントではないためです。ランダムに選択された子供が先天性欠損症で生まれることはまれです(確かに50%ではありません)。

    確率のルール

    ここでは、確率の基本的なルールのいくつかを学ぶことに移ります。

    幸いなことに、これらのルールは非常に直感的であり、体系的に適用される限り、より複雑な問題、特に直感が不十分な問題を解決することができます。

    あなたが見つけるように求められる確率のほとんどは、

    • ロジックとカウント

    • 私たちが学ぶルール、

    私たちは原則として次のア

    原則:

    ロジックとカウントを使用して確率を計算できる場合は、確率ルールは必要ありません(正しいルールは常に適用できますが)

    確率ルールOne

    最初のルールは、単に私たちがすでに学んだ確率の基本的な性質を思い出させます。

    発生する可能性を通知するイベントの確率は、0(イベントが発生しないことを示す)から1(イベントが特定であることを示す)の範囲です。

    確率ルール1:

    • 任意のイベントAに対して、0≤P(A)≤1。

    注:このルールの実用的な使用法の1つは、1を超える(または0未満)と判明した確率計算を正しくないと識別するために使用できる

    他のルールに進む前に、最初に次のいくつかのルールを説明するためのコンテキストを提供する例を見てみましょう。

    例:血液型

    前述したように、すべての人間の血液はO、A、B、またはABとして入力できます。

    さらに、これらの血液型の発生頻度は、民族や人種によって異なります。スタンフォード大学の血液センター(bloodcenter。スタンフォードだedu)、これらは米国におけるヒト血液型の確率である(タイプAの確率は意図的に省略されている):

    ルール2の動機付けの問 血液型Aを持つ人の確率は何ですか?

    答え

    答えp: 私たちの直感は、O、A、B、ABの4つの血液型がすべての可能性を使い果たしているので、それらの確率は一緒に1に合計しなければならず、これは”特定の”

    O、B、およびABの確率は一緒に合計されるため、次のようになります。

    0.44 + 0.1 + 0.04 =0.58、タイプAの確率は残りでなければなりません0.42 (1 – 0.58 = 0.42):

    "血液型:確率"形式で与えられたデータ:O:0.44;A:0.42;B:0.10;AB:0.04;"Blood Type: Probability" Format: O: 0.44; A: 0.42; B: 0.10; AB: 0.04;

    確率ルールTwo

    この例は、すべての可能な結果の確率が一緒に1でなければならないことを教えてくれる私たちの第二のルールを示しています。

    確率ルール2:

    すべての可能な結果の確率の合計は1です。これは、Exploratory Data Analysis(EDA)セクションで学んだこととここでやっていることを比較し、対比するのに適した場所です。

    • この問題では、本質的に単一のカテゴリ変数に焦点を当てていることに注意してください:血液型。
    • この変数は、EDAセクションで単一のカテゴリ変数を要約したように、変数が取る値とそれらを取る頻度を一覧表示することによって、上に要約しました。
    • EDAではパーセンテージを使用しましたが、ここでは確率を使用していますが、2つは同じ情報を伝えます。
    • EDAセクションでは、単一のカテゴリ変数が含まれている場合に円グラフが適切な表示を提供することを学びました。:

    "血液型"というタイトルの円グラフ。"タイプOは円グラフの44%を占め、Aは42%を使用し、ABは4%を表し、Bは残りの10%を表します。 "Oではない"血液の種類は、円グラフの56%を占めることに注意してください。"Blood Types." Type O takes up 44% of the pie chart, A uses 42%, AB represents 4%, and B represents the rest, 10%. Note that the types of blood which are "not O" take up 56% of the pie chart.

    ここでやっていることは確かにEDAセクションでやったことと似ていますが、基礎となる状況の間には微妙ですが重要な違いがあ

  • ここでは、各血液型の確率を提示するとき、米国の人々の人口全体を念頭に置いており、関心のある変数によって取られた値の全体的な頻度を知っていると仮定しています。
私はこれを取得しましたか?:確率ルール二

確率ルール三

確率とそのアプリケーションでは、我々は頻繁に特定のイベントが発生しない確率を見つけることに興味があります。

ここで理解すべき重要な点は、”イベントAは発生しません”は、Aにないすべての可能な結果で構成される別個のイベントであり、”aの補 ここでは、イベントAとその補完イベント”not A”が一緒にすべての可能な結果を表す方法を視覚的に表現しています。

サンプル空間S全体は灰色のボックスで表されます。 このボックスの内側には青い円があり、aのすべての結果を表しています。"not A".

コメント:

  • このような視覚的な表示は、”ベン図”と呼ばれます。”ベン図は、長方形と円を使用してイベントとそれらの間の関係を視覚化する簡単な方法です。

ルール3は、イベントの確率とその補数イベントの確率との関係を扱います。

イベントAとイベント”not A”が一緒にすべての可能な結果を構成し、ルール2はすべての可能な結果の確率の合計が1であることを教えてくれるので、次のルールは非常に直感的でなければなりません。

確率ルールThree(補数ルール):

  • P(not A)=1–P(A)
  • つまり、イベントがある確率は次のようになります。

    確率ルールThree(補数ルール):

    • P(not A)=1-P(A)
    • つまり、イベントがある確率は次のようになります。発生しない確率は、1から発生する確率を引いたものです。例:血液型

      血液型の例に戻る:

      ここではいくつかの追加情報があります:

      • 型を持つ人aは、a型またはab型の人に血液を寄付することができます。
      • B型の人は、b型またはAB型の人に血液を寄付することができます。
      • AB型の人は、AB型の人にのみ血液を寄付することができます。
      • O型の血液を持つ人は誰にでも寄付することができます。無作為に選ばれた人が誰にも血液を寄付できない確率は何ですか?

      無作為に選ばれた人が誰にも血液を寄付できない確率は? 言い換えれば、ランダムに選ばれた人が血液型O型を持っていない確率は何ですか? P(Oではない)を見つける必要があります。 補数規則を使用すると、P(not O)=1–P(O)=1–0.44=0.56となります。 つまり、米国人口の56%が血液型Oを持っていない:

      明らかに、我々はまた、B、AB、およびAの確率を追加することによ:補数規則P(not A)=1–P(A)はP(A)=1-P(not A)として再定式化できることに注意してください。

      • P(not A)=1–P(a)
      • は、P(a)=1-P(not A)として再定式化することができます。
      • この一見些細な代数的操作は重要な応用を持ち、実際には補数規則の強さを捉えています。場合によっては、P(A)を直接見つけることが非常に複雑な場合、p(aではない)を見つけてから1から減算して目的のP(A)を取得する方がはるかに簡
      • 私たちはすぐにこのコメントに戻って、追加の例を提供します。
    • 補数ルールは、イベント自体ではなくイベントの補数の確率を計算する方が簡単な場合に便利です。
    • 注意してください、我々は再びフレーズを使用しました”少なくとも一つ。”
    • 今、私たちは、”少なくとも一つ…”の補数が”なし…”または”いいえ….”であることを見てきました。”(我々はイベントが”反対”されているという点で前述したように)。
    • 上記の活動では、
      • P(これら二つの副作用のどれも)=1–P(これら二つの副作用の少なくとも一つ)
    • これは、問題の”少なくとも一つ”という句で認識できる補数規則の一般的な適用である。

    複数のイベントを含む確率

    • P(aまたはB)=P(イベントAが発生するか、イベントBが発生するか、またはその両方が発生する)
    • P(aおよびB)=P(イベントAが発生するか、イベントBが発生するか、またはその両方が発生する)

    用語の共通の問題は、私たちが日常生活の中で”or”をどのように考えるかに関するものです。 たとえば、親がおもちゃ店で子供に”おもちゃAまたはおもちゃBが欲しいですか?「これは、子供が1つのおもちゃだけを手に入れようとしていることを意味し、彼または彼女はそれらの間で選択する必要があります。 両方のおもちゃを得ることは、通常、オプションではありません。これとは対照的に、

    確率では、”OR”はどちらか一方または両方を意味します。つまり、p(a or B)=P(event a occurs or event B occurs or BOTH occurs)

    と言っても、2つのイベントが両方とも同時に発生することは単に不可能な場合があることに注意してくださ

    確率ルールFour

    一緒に起こることができるイベントとできないイベントの区別は重要なものです。p>

    互いに素: 同時に発生できない2つのイベントは、disjointまたは相互に排他的と呼ばれます。 (私たちはdisjointを使用します。)

    "AとBは互いに素です。"サンプル空間全体は長方形として表されます。 長方形の内側には2つの別々の円があります。 一方の円はaのイベントを表し、もう一方の円はBのイベントを表します。"A and B are Disjoint." The entire sample space is represented as a rectangle. Inside the rectangle are two separate circles. One circle represents the events in A and the other represents the events in B."AとBは互いに素ではありません。"サンプル空間全体は長方形として表されます。 長方形の内側には2つの円があります。 一方の円はaの出現を表し、もう一方の円はBの出現を表します。 (互いに離れていないので、2つの円は互いに完全に重なり合う可能性がありますが、この例ではそうではありません。p>"A and B are NOT Disjoint." The entire sample space is represented as a rectangle. Inside the rectangle are two circles. One circle represents the occurrences in A and the other represents the occurrences in B. These two are not disjoint, so the two circles partially overlap each other. (Being NOT disjoint, two circles could overlap each other completely, but in this example they do not.)

  • 最初のケースでは、イベントが互いに素でない場合、P(a and B)≤0
  • 2番目のケースでは、イベントが互いに素である場合、P(a and B)=0です。 ここでは2つの例があります:

    例:

    次の二つのイベントを考えてみましょう:

    a—ランダムに選択された人は血液型Aを持っており、

    B—ランダムに選択された人は血液型Bを持っています。

    まれに、人が自分の静脈を流れる複数のタイプの血液を持つことは可能ですが、私たちの目的のために、それぞれの人が一つの血液型しか持つことができないと仮定します。 したがって、事象Aと事象Bが一緒に発生することは不可能である。

    • イベントAとBは互いに素です

    一方、…

    例:

    次の2つのイベントを考えてみましょう:

    a—無作為に選ばれた人は血液型A

    b—無作為に選ばれた人は女性です。

    b-無作為に選ばれた人は女性です。

    B-無作為に選ばれた人はこの場合、イベントAとBが一緒に発生する可能性があります。

    この場合、イベントAとBが一緒に発生する可能性があります。

    • イベントAとBは互いに素ではありません。

    ベン図は、互いに素なイベントと非互いに素なイベントについて考える別の方法は、互いに素なイベントが重複しないことを示唆し 彼らは可能な結果のいずれかを共有していないので、一緒に起こることはできません。一方、互いに素ではないイベントは、可能な結果の一部を共有しているため、同時に発生する可能性があるという意味で重複しています。

    ここでは、互いに素なイベントのP(aまたはB)を見つけるための簡単なルールから始めます。

    確率ルール4(互いに素なイベントの加算ルール):

    • AとBが互いに素なイベントである場合、P(aまたはB)=P(A)+P(B)。

    コメント:

    • 確率を扱うとき、単語”or”は常に加算の操作に関連付けられます。

コメント:

  • 確率を扱うとき、単語”or”は常に加算の操作に関連付けられます。; したがって、このルールの名前は、”加算ルール。例:血液型

    血液型の例を思い出してください:

    "血液型:確率"形式で与えられたデータ:O:0.44;A:0.42;B:0.10;AB:0.04;"Blood Type: Probability" Format: O: 0.44; A: 0.42; B: 0.10; AB: 0.04;

    ここにいくつかの追加情報があります

    • Acan型の人は、a型またはab型の人に血液を寄付します。
    • Bcan型の人は、b型またはAB型の人に血液を寄付します。
    • Ab型の人AB型の人に血液を寄付することができます
    • Oblood型の人は誰にでも寄付することができます。ランダムに選択された人が血液型Aの人の潜在的なドナーである確率は何ですか?

    ランダムに選択された人が血液型Aの人の潜在的なドナーであ与えられた情報から、血液型Aの人の潜在的なドナーであることは、血液型aまたはOを持つことを意味することがわかります。

    したがって、P(aまたはO)を見つける必要があります。 イベントAとOは互いに素であるため、互いに素なイベントの加算ルールを使用して、次のように取得できます。

    • P(a or O)=P(A)+P(O)=0.42+0.44=0.86。なぜ確率を追加するのが実際に理にかなっているのかは簡単にわかります。

      人口の42%が血液型Aを持ち、人口の44%が血液型Oを持っている場合、

      • 次に、人口の42%+44%=86%が血液型aまたはOのいずれかを持っているため、血液型aを持つ人への潜在的なドナーである。

      加算ルールが理にかなっている理由についてのこの推論は、以下の円グラフを使用して視覚化することができます。

      "血液型"というタイトルの円グラフ。"タイプAは円グラフの42%を占め、タイプOは44%を占めます。 一緒に、AまたはOとして、彼らは円グラフの86%を占めます。"Blood Types." Type A takes up 42% of the pie chart, and type O takes up 44%. Together, as A or O, they take up 86% of the pie chart.

次のようにして学ぶ:確率ルールFour

コメント:

  • 互いに素なイベントの加算ルールは、自然に二つ以上の互いに素なイベン 例えば、三つを見てみましょう。 A、B、Cが三つの互いに素なイベントである場合
3つの互いに素なイベントを示すベン図。 いつものように、サンプル空間全体を示す灰色のボックスがあります。 この灰色の箱の中には3つの完全に別々の円があります。 最初の円はaの出現、2番目の円はBの出現、3番目の円はCの出現です。

次に、P(aまたはBまたはC)=P(A)+P(B)+P(C)。 ルールは、任意の数の互いに素なイベントで同じです。p>

私はこれを取得しましたか?:確率ルールFour

私たちは今、互いに素なイベントに制限されたバージョンである加算ルール(ルールfour)の最初のバージョンで終了しています。 第二のバージョンをカバーする前に、我々は最初にp(aとB)を議論する必要があります。

ロジックを使用してP(aとB)を見つける

ここで、

  • P(aとB)=P(イベントAが発生し、イベントBが発生する両方)

後で、P(aとB)を計算するためのルールについて説明します。

まず、ロジックとカウントによって答えを決定できるときはいつでもルールは必要ないことを説明したいと思います。

最初に、私たちは、ルールが必要ではないことを説明したいと思います。

特殊なケース:

ルールを適用せずにP(AとB)が何に等しいかを知っている特殊なケースが1つあります。p>

次のようにして学習します: したがって、イベントAとBが互いに素である場合、(定義により)P(aとB)=0。 しかし、イベントが互いに素でない場合はどうなりますか?

加算ルールであるルール4には二つのバージョンがあることを思い出してください。 このモジュールの後半では、より一般的なバージョンについて説明します。 AND

ただし、特別な場合を除いて、このコースではP(AとB)を見つけるためのロジックに依存します。

正式なルールをカバーする前に、イベントが互いに素でない例を見てみましょう。

例:歯周状態と性別

個人の歯周状態とその性別に関する次の表を考えてみましょう。 歯周病とは、個人が健康であるか、歯肉炎を有するか、または歯周病を有するかのいずれかに分類される歯周病を指す。

ケースC→Cのデータの分析について説明したときに、このタイプのテーブルを見たことがあります。

この質問の目的のために、このデータを「人口」として使用し、1人をランダムに選択することを検討します。

歯周状態と性別

私たちは、これはあなたがこれらのトピック間の接続を行うことができ、あなたがデータについて学んだことのいくつかを心の中で新鮮に保ちます。

覚えておいてください、このコースの主な目標は、実際のデータを分析することです!

確率ルール5

これで、加算ルールの拡張バージョンに移動する準備が整いました。このセクションでは、AとBが必ずしも互いに素ではないときにP(aまたはB)を見つける方法を学びます。

このセクションでは、AとBが必ずしも互いに素ではないときにP(aまたはB)を見つける方法を学びます。

  • この拡張バージョンを「一般加算ルール」と呼び、それを確率ルール5と言います。

まず、ルールを述べ、このコースで一般的に尋ねる問題の種類に似た例を提供することから始めます。 次に、作業するサンプルからの生データがない別の例を紹介します。確率ルール5:

  • 一般的な加算ルール:P(aまたはB)=P(A)+P(B)–P(aおよびB)。

注:別の式ではなく、p(aとB)を見つけるためにロジックを使用することをお勧めします。

非常に一般的なエラーは、次のページでカバーされている独立したイベントの乗算ルールを誤って適用していることです。 これは、aとBが独立している場合にのみ正しくなります(以下の定義を参照)。

前の例で見たように、二つのイベントが互いに素でない場合、イベント間にいくつかの重複があります。

  • 単純に2つの確率を加算すると、いくつかの「確率」を2回数えたため、間違った答えが得られます。
  • したがって、正しい答えに到達するには、この”余分な”確率を差し引く必要があります。 ベン図と双方向の表は、このアイデアを視覚化するのに役立ちます。

"AとBは互いに素ではありません。"灰色のボックスはサンプル空間を表し、内側には重なり合う領域を持つ二つの青い円があります。 2つの円が重なっている領域は、イベントAとBが同時に発生する可能性があることを表しているため、P(AとB)≤0です。"A and B are NOT Disjoint." A gray box represents the sample space, and inside are two blue circles which have an overlapping area. One circle is labeled A and the other is labeled B. The area where the two circles overlap represents that Events A and B can occur at the same time, so P(A and B) ≠ 0.

このルールは、任意のイベントのペア(互いに素なイベントでも)に対して機能するため、より一般的です。 私たちのアドバイスは、ロジックを使用して質問に答えることを試みることであり、可能な限りカウント、そうでなければ、我々は問題の正しいルールを選

原則:

ロジックとカウントを使用して確率を計算できる場合は、確率ルールは必要ありません(正しいルールは常に適用できますが)

AとBが互いに素である場合、P(aとB)=0であり、ルール5はこの特別なケースではルール4に還元されることに注意してください。

"AとBは互いに素です。 サンプル空間S全体は灰色の長方形で表されます。 内側には2つの別々の、重複していない青い円があります。 一つの円はAの出現のためのものであり、もう一つはBの出現のためのものです。"A and B are Disjoint. The entire sample space S is represented as a gray rectangle. Inside are two, separate, non-overlapping blue circles. One circle is for the occurrences in A and the other for occurrences in B.

最後の例をもう一度見てみましょう。

例:歯周状態と性別

個人の歯周状態と性別に関して、次の表に示されているものから一人の個人をランダムに選択することを考えてみましょう。 歯周病とは、個人が健康であるか、歯肉炎を有するか、または歯周病を有するかのいずれかに分類される歯周病を指す。p>

これまでに学んだことを見直してみましょう。 このシナリオでは、イベントまたはイベントの組み合わせを満たす個人の数を決定できれば、任意の確率を計算できます。

  • P(男性)=3009/8027=0.3749
  • P(女性)=5018/8027=0.6251
  • P(健康)=3750/8027=0.4672
  • P(健康ではない)=P(歯肉炎または歯周病)
  • P(健康ではない)=P(歯肉炎または歯周病)
  • P(健康ではない)
  • P(健康ではない)=P(歯肉炎または歯周病)
  • P(健康ではない)
  • P(健康ではない)
  • P(健康ではない)
  • ) = (2419 + 1858)/8027 = 4277/8027 = 0.5328た、補数ルールを使用してこれを計算することもできます:1–P(Healthy)
  • 以前にも

    • P(Male AND Healthy)=1143/8027=0であることがわかりました。1424

    ルール5、P(aまたはB)=P(A)+P(B)–P(aおよびB)を思い出してください。 ここで、このルールを使用して、P(男性または健康)

    • P(男性または健康)=P(男性)+P(健康)-P(男性および健康)=P(男性および健康)+p(健康)=p(男性および健康)+p(健康)=P(0.3749 + 0.4672 – 0.1424 =0.6997または約70%

    私たちは、単に男性または健康またはその両方であるどのように多くの個人を数えることによって、以前にこの質問を解決しました。 下の図は、結合する必要がある値を示しています。 私たちは数える必要があります

    • すべての男性
    • すべての健康な個人
    • しかし、誰も二度数えません!!この論理的なアプローチを使用すると、
      • P(男性または健康)が見つかります。
        • P(男性または健康)が見つかります。
          • P(男性または健康)が見つかります。
            • P(男性または健康)が見つかります。
              • P(男性または健康)が見つかります。
              • P(男性または健康)が見つかります。) = (1143 + 929 + 937 + 2607)/8027 = 5616/8027 = 0.6996p(Male)、P(Healthy)、およびP(Male and Healthy)を計算してからルール5を適用したときに発生した丸めのため、最後の小数点以下の答えにはわずかな違いがあります。明らかに答えは効果的に同じで、約70%です。

                より多くの小数点以下の桁数への回答を行った場合、または元の分数を使用した場合、この小さな不一致を完全に排除することができます。 ルールが必要な場合、つまり実際のデータがない場合、確率ルール5を説明するための最後の例を見てみましょう。

                例:重要な配信!

                特定の文書が一日以内に目的地に到達することが重要です。 オンタイム配信の確率は、

                • 0.90for service A(P(A)=0.90)
                • 0.80for service B(P(B)=0.80)
                • 0であることが知られています。両方のサービスが時間通りにある場合(P(aとB)=0.75)
                  (AとBは互いに素ではないことに注意してください。 彼らは確率0.75と一緒に起こることができます。以下のベン図は、確率P(A)、P(B)、およびP(aおよびB)を示しています。

                  三つのベン図。 それらのすべてには、すべてのサンプル空間Sを表す大きな長方形があります。 最初のベン図では、Aの円は青色に着色されており、P(A)=0.90であることがわかります。 ある意味では、P(A)はa円の面積です。 第二のベン図では、Bの円は青色であり、P(B)=0.80であるとマークされている。 最初のベン図のように、Bの円の面積は0.80であると考えることができます。 第三のベン図では、円AとBの重なり合いである領域は青色である。 P(AおよびB)=0.75。 オーバーラップの面積は、0.75の面積を持つと考えることができます。この問題の文脈では、興味のある明白な問題は次のとおりです。

                  :この戦略(両方のサービスを介して送信する)を使用してドキュメントをオンタイム配信する確率はどれくらいですか?

                文書は、サービスAまたはサービスBまたは両方のサービスによって時間通りに配信される限り、時間通りに目的地に到達します。 つまり、イベントAが発生した場合、またはイベントBが発生した場合、またはその両方が発生した場合。 だから…。

                p(この戦略を使用して時間配信)=P(aまたはB),以下の図の影付き領域で表されます:

                二つの円の領域を除いて同じベン図は、青(影付き)に色付けされています。

                二つの円の領域を除いて、同じベン図は、青(影付き)に色付けされています。

                これは、オーバーラップ内の領域も青色に着色されていることを意味します。 重複領域は一度しか着色されていないので、両方の円にあるにもかかわらず、一度カウントされます。p(a)、P(B)、P(aとB)

              • を表す三つのベン図を使用して、P(aまたはB)を見つけることができることを確認するには、P(a)(左の円で表される)とP(B)(右の円で表される)、
              • 次にp(aとB)(重複で表される)を減算する。p(aとB)(重複で表される)、p(aとb)の一部として二度含まれているので、p(a)、p(b)の一部として一度だけ含めることができる。(a)と一度p(b)の一部として。
              • これは次の画像に示されています:

                ベン図内の両方の円の面積(重複領域を一度数える)は、aの円の面積(重複を含む)+Bの円の面積(重複 したがって、P(aまたはB)=P(A)+P(B)-P(aおよびB)が得られます。's circle (which includes the overlap) + the area of B's circle (which also includes the overlap) - the area of the overlap. We therefore get: P(A or B) = P(A) + P(B) - P(A and B).

                これを例に適用すると、次のことがわかります。

                • P(a or B)=p(この戦略を使用したオンタイム配信)= 0.90 + 0.80 – 0.75 = 0.95.

                だから、二つの配信サービスを使用する私たちの戦略は、0.95にオンタイム配信の私たちの確率を増加させます。

                ベン図は、一般的な加算ルールを視覚化するのに最適でしたが、このような場合には、探索的データ分析セクションで二つのカテゴリ変数間の関係を調あなたが私たちのためにこれをするように頼まれないので、私たちはそれをどのように派生させるかではなく、単にあなたにテーブルを表示します。

                いくつかのロジックと単純な加算/減算が、下の表に記入するために使用されたすべてであることがわかります。テーブルには、列「B」、「not B」、および「Total」があります。「行は「A」、「not A」、および「Totalです。 セルA、Bでは、そこの値(0.75)はP(aとB)=P(両方のサービスによるオンタイム配信)です。 BではなくセルAでは、そこの値(0.15)はP(BではなくA)=P(サービスAによるオンタイム配信のみ)です。 AおよびBではないセルでは、値(0.05)はP(aおよびBではない)=P(サービスBによるオンタイム配信のみ)です。 セルNot aおよびNot Bでは、値(0.05)はP(Not aおよびNot B)=P(サービスAもBも時間通りに配信されません)です。

    双方向テーブルを使用する場合は、行または列全体を見て、AのみまたはBのみを含む全体的な確率を見つけることを忘れないでください。

    • P(A)=0.90は、サービスAが使用されている場合の90%において、ドキュメントを時間通りに配信することを意味します。 これを見つけるために、Aを含む行の合計確率を調べます。P(A)を見つけることで、Bが発生するかどうかはわかりません。

    テーブルの最初の行が強調表示されています。 行、列形式で強調表示されたデータは次のとおりです。A,B:P(a and B)=0.75;a,not B:P(a and not B)=0.15;A,Total:P(a)=0.90=P(a and B)+P(a and not B)'s first row has been highlighted. Here is the highlighted data in "Row, Column" format: A, B: P(A and B) = 0.75; A, not B: P(A and not B) = 0.15; A, Total: P(A) = 0.90 = P(A and B) + P(A and not B)

    • p(B)=0.80は、サービスBが使用されている場合の80%において、ドキュメントを時間通りに配信することを意味します。 これを見つけるために、Bを含む列の合計確率を調べます。P(B)を見つけることで、Aが発生するかどうかはわかりません。

    テーブルの最初の列が強調表示されています。 行、列の形式で強調表示されたデータは次のとおりです。A、B:P(aとB)=0.75;not a、B:P(not aとB)=0。05;B,Total:P(B)=0.80=P(a and b)+P(not a and B)'s first column has been highlighted. Here is the highlighted data in "Row, Column" format: A,B: P(A and B) = 0.75; not A, B: P(not A and B) = 0.05; B,Total: P(B) = 0.80 = P(A and B) + P(not A and B)

    Comment

    • 探索的データ分析(EDA)セクションで双方向テーブルを使用した場合、個人の具体的なサンプルの2つのカテゴリ変数の値を記録することでした。対照的に、確率双方向表の情報は母集団全体に対するものであり、値はかなり抽象的です。
    • EDAセクションの配信例のようなものを扱っていた場合、サービスAまたはBで郵送された文書のサンプルのオンタイム(およびオンタイムではない)配信の実際の数を記録していたでしょう。
    • このセクションでは、長期的な確率が知られているように提示されています。
    • おそらく、この配信例で報告された確率は、多くの繰り返しにわたって記録された相対的な頻度に基づいていました。