- wprowadzenie
- Zasady prawdopodobieństwa
- zasada prawdopodobieństwa 1 (dla dowolnego zdarzenia A, 0 ≤ P(A) ≤ 1)
- zasada prawdopodobieństwa 2 (suma prawdopodobieństw wszystkich możliwych wyników wynosi 1)
- zasada prawdopodobieństwa 3 (reguła dopełniacza)
- prawdopodobieństwa obejmujące wiele zdarzeń
- li>
- reguła prawdopodobieństwa czwarta (reguła dodawania zdarzeń rozłącznych)
- znajdowanie P(A i b) za pomocą logiki
- reguła prawdopodobieństwa Pięć (ogólna zasada dodawania)
- Zaokrąglanie reguły dla prawdopodobieństwa
- podsumujmy
w poprzedniej sekcji wprowadziliśmy prawdopodobieństwo jako sposób na ilościowe określenie niepewności wynikającej z przeprowadzania eksperymentów z wykorzystaniem losowej próbki z populacji będącej przedmiotem zainteresowania.
widzieliśmy, że prawdopodobieństwo zdarzenia (na przykład zdarzenia, w którym losowo wybrana osoba ma grupę krwi O) można oszacować na podstawie względnej częstotliwości, z jaką zdarzenie występuje w długiej serii badań. Zbieraliśmy więc dane od wielu osób, aby oszacować prawdopodobieństwo, że ktoś ma grupę krwi O.
w tej sekcji ustalimy podstawowe metody i zasady ustalania prawdopodobieństwa zdarzeń.
omówimy również niektóre z podstawowych zasad prawdopodobieństwa, które można wykorzystać do obliczenia prawdopodobieństwa.
wprowadzenie
zaczniemy od klasycznego przykładu prawdopodobieństwa rzucania uczciwą monetą trzy razy.
ponieważ Orzeł i reszka są jednakowo prawdopodobne dla każdego rzutu w tym scenariuszu, każda z możliwości, które mogą wynikać z trzech rzutów, będzie równie prawdopodobna, abyśmy mogli wymienić wszystkie możliwe wartości i użyć tej listy do obliczenia prawdopodobieństwa.
ponieważ w tym kursie skupiamy się na danych i statystyce (nie na prawdopodobieństwie teoretycznym), w większości naszych przyszłych problemów będziemy używać podsumowanego zbioru danych, Zwykle tabeli częstotliwości lub tabeli dwukierunkowej, do obliczania prawdopodobieństwa.
przykład: Wyrzuć uczciwą monetę trzy razy
wymieńmy każdy możliwy wynik (lub możliwy wynik):
{HHH, THH, HTH, HHT, HTT, THT, TTH, TTT}
teraz zdefiniujmy następujące zdarzenia:
Zdarzenie a: „uzyskanie Nie H”
Zdarzenie B: „uzyskanie dokładnie jednego H”
Zdarzenie C: „uzyskanie co najmniej jednego H”
zauważ, że każde zdarzenie jest rzeczywiście stwierdzenie o wyniku, że eksperyment ma zamiar produkować. W praktyce każdemu zdarzeniu odpowiada pewien zbiór (podzbiór) możliwych wyników.
Event A: „Getting no H” → TTT
Event B: „Uzyskanie dokładnie jednego H” → HTT, THT, TTH
Zdarzenie C:” uzyskanie co najmniej jednego H” → HTT, THT, TTH, THH, HTH, HHT, HHH
oto wizualna reprezentacja zdarzeń A, B i C.
z tej wizualnej reprezentacji zdarzeń, łatwo jest zobaczyć, że zdarzenie B jest całkowicie uwzględnione w zdarzeniu C, w tym sensie, że każdy wynik w zdarzeniu B jest również wynikiem w zdarzeniu C. Ponadto, zauważ, że zdarzenie a różni się od zdarzeń B I C, w tym sensie, że nie mają żadnego wspólnego wyniku lub nie nakładają się na siebie. W tym momencie są to tylko godne uwagi obserwacje, ale jak odkryjesz później, są one bardzo ważne.
Co jeśli dodamy nowe zdarzenie:
Zdarzenie D: „Getting A T on the first toss” → THH, THT, TTH, TTT
jak by to wyglądało, gdybyśmy dodali Zdarzenie D do powyższego diagramu? (Link do odpowiedzi)
pamiętaj, ponieważ H I T są równie prawdopodobne w każdym rzucie, a ponieważ jest 8 możliwych wyników, prawdopodobieństwo każdego wyniku wynosi 1/8.
sprawdź, czy możesz odpowiedzieć na poniższe pytania za pomocą diagramów i / lub listy wyników dla każdego zdarzenia wraz z tym, czego do tej pory nauczyłeś się o prawdopodobieństwie.
Jeśli byłeś w stanie poprawnie odpowiedzieć na te pytania, prawdopodobnie masz dobry instynkt do obliczania prawdopodobieństwa! Czytaj dalej, aby dowiedzieć się, jak będziemy stosować tę wiedzę.
Jeśli nie, postaramy się pomóc ci rozwinąć tę umiejętność w tym dziale.
komentarz:
- zauważ, że w przypadku C, „uzyskanie co najmniej jednej głowy” istnieje tylko jeden możliwy wynik, którego brakuje, „uzyskanie żadnej głowy” = TTT. Zajmiemy się tym ponownie, gdy mówimy o regułach prawdopodobieństwa, w szczególności o zasadzie dopełniacza. W tym momencie chcemy tylko, żebyście pomyśleli o tym, jak te dwa wydarzenia są „przeciwieństwami” w tym scenariuszu.
bardzo ważne jest, aby zdać sobie sprawę, że tylko dlatego, że możemy wymienić możliwe wyniki, nie oznacza to, że każdy wynik jest równie prawdopodobny.
jest to (zabawna) wiadomość w klipie Daily Show, który zamieściliśmy na poprzedniej stronie. Ale pomyślmy o tym jeszcze raz. W tym klipie Walter twierdzi, że ponieważ istnieją dwa możliwe wyniki, prawdopodobieństwo wynosi 0,5. Te dwa możliwe wyniki To
- świat zostanie zniszczony z powodu użycia dużego Zderzacza Hadronów
- świat nie zostanie zniszczony z powodu użycia dużego Zderzacza Hadronów
miejmy nadzieję, że jest jasne, że te dwa wyniki nie są równie prawdopodobne!!
rozważmy bardziej powszechny przykład.
przykład: wady wrodzone
Załóżmy, że losowo wybierzemy trójkę dzieci i interesuje nas prawdopodobieństwo, że żadne z nich nie ma wad wrodzonych.
używamy notacji D do reprezentowania dziecka urodzonego z wadą wrodzoną i N do reprezentowania dziecka urodzonego z wadą wrodzoną. Możemy wymienić możliwe wyniki, tak jak w przypadku rzutu monetą, są to:
{DDD, NDD, DND, DDN, DNN, NDN, NND, NNN}
czy zdarzenia DDD (wszystkie dzieci rodzą się z wadami wrodzonymi) i NNN (żadne z dzieci nie rodzi się z wadami wrodzonymi) są równie prawdopodobne?
powinno być dla Ciebie rozsądne, że P(NNN) jest znacznie większy niż P(DDD).
dzieje się tak dlatego, że P(N) I P(D) nie są jednakowo prawdopodobnymi zdarzeniami.
rzadko (na pewno nie w 50%) rodzi się losowo wybrane dziecko z wadą wrodzoną.
Zasady prawdopodobieństwa
teraz przechodzimy do nauki niektórych podstawowych zasad prawdopodobieństwa.
na szczęście zasady te są bardzo intuicyjne i dopóki są systematycznie stosowane, pozwolą nam rozwiązywać bardziej skomplikowane problemy; w szczególności te, dla których nasza intuicja może być niewystarczająca.
ponieważ większość prawdopodobieństwa, o które zostaniesz poproszony, można obliczyć za pomocą logiki
- i liczenia
oraz
- reguł, których będziemy się uczyć,
podajemy następującą radę jako zasadę.
zasada:
jeśli możesz obliczyć prawdopodobieństwo za pomocą logiki i liczenia, nie potrzebujesz reguły prawdopodobieństwa (chociaż zawsze można zastosować poprawną regułę)
reguła prawdopodobieństwa jedna
nasza pierwsza reguła przypomina nam po prostu podstawową właściwość prawdopodobieństwa, której już się nauczyliśmy.
prawdopodobieństwo zdarzenia, które informuje nas o prawdopodobieństwie jego wystąpienia, może wynosić od 0 (co oznacza, że zdarzenie nigdy nie wystąpi) do 1 (co oznacza, że zdarzenie jest pewne).
zasada prawdopodobieństwa pierwsza:
- dla dowolnego zdarzenia A, 0 ≤ P(A) ≤ 1.
Uwaga: jednym z praktycznych zastosowań tej reguły jest to, że może być ona wykorzystana do zidentyfikowania dowolnego obliczenia prawdopodobieństwa, które okaże się większe niż 1 (lub mniejsze niż 0) jako nieprawidłowe.
zanim przejdziemy do innych reguł, przyjrzyjmy się najpierw przykładowi, który dostarczy kontekstu do zilustrowania kolejnych kilku reguł.
przykład: grupy krwi
jak wcześniej wspomniano, cała ludzka krew może być wpisana jako O, A, B lub AB.
ponadto częstość występowania tych grup krwi różni się w zależności od grup etnicznych i rasowych.
według Centrum Krwi Uniwersytetu Stanforda (bloodcenter.stanford.edu), są to prawdopodobieństwa grup krwi ludzkiej w Stanach Zjednoczonych (prawdopodobieństwo typu A zostało celowo pominięte):
pytanie motywujące do zasady 2: osoba w Stanach Zjednoczonych jest wybierana losowo. Jakie jest prawdopodobieństwo, że osoba ma grupę krwi A?
Odpowiedz: Nasza intuicja mówi nam, że ponieważ cztery grupy krwi O, A, B i AB wyczerpują wszystkie możliwości, ich prawdopodobieństwo musi sumować się do 1, co jest prawdopodobieństwem „pewnego” zdarzenia (osoba ma jedną z tych 4 grup krwi dla pewnych).
ponieważ prawdopodobieństwa O, B i AB razem sumują się do 0.44 + 0.1 + 0.04 = 0,58, prawdopodobieństwo typu A musi być Pozostałe 0.42 (1 – 0.58 = 0.42):
zasada prawdopodobieństwa druga
Ten przykład ilustruje naszą drugą zasadę, która mówi nam, że prawdopodobieństwo wszystkich możliwych wyników razem musi wynosić 1.
zasada prawdopodobieństwa druga:
suma prawdopodobieństw wszystkich możliwych wyników wynosi 1.
to dobre miejsce, aby porównać i porównać to, co tutaj robimy z tym, czego nauczyliśmy się w sekcji Exploratory Data Analysis (Eda).
- zauważ, że w tym problemie skupiamy się zasadniczo na jednej zmiennej kategorycznej: grupie krwi.
- podsumowaliśmy tę zmienną powyżej, tak jak podsumowaliśmy pojedyncze zmienne kategoryczne w sekcji EDA, wymieniając jakie wartości przyjmuje zmienna i jak często je przyjmuje.
- w EDA użyliśmy procentów, a tutaj używamy prawdopodobieństw, ale oba przekazują te same informacje.
- w sekcji EDA dowiedzieliśmy się, że Wykres kołowy zapewnia odpowiednie wyświetlanie, gdy zaangażowana jest pojedyncza zmienna kategoryczna, i Podobnie możemy jej użyć tutaj (używając procentów zamiast prawdopodobieństw):
chociaż to, co tutaj robimy, jest rzeczywiście podobne do tego, co zrobiliśmy w sekcji EDA, istnieje subtelna, ale ważna różnica między podstawowymi sytuacjami
- w EDA podsumowaliśmy dane uzyskane z próbki osób, dla których zarejestrowano wartości zmiennej zainteresowania.
- tutaj, kiedy przedstawiamy prawdopodobieństwo każdej grupy krwi, mamy na myśli całą populację ludzi w Stanach Zjednoczonych, dla których Zakładamy, że znamy ogólną częstotliwość wartości przyjmowanych przez zmienną zainteresowania.
zasada prawdopodobieństwa trzecia
w przypadku prawdopodobieństwa i jego zastosowań często jesteśmy zainteresowani ustaleniem prawdopodobieństwa, że pewne zdarzenie nie wystąpi.
ważnym punktem do zrozumienia jest to, że „zdarzenie a nie występuje” jest oddzielnym zdarzeniem, które składa się ze wszystkich możliwych wyników, które nie są w A i nazywa się „zdarzeniem dopełniającym A.”
notacja
: napiszemy „not a”, aby określić zdarzenie, które nie występuje A. Oto wizualna reprezentacja tego, jak zdarzenie a i jego Zdarzenie uzupełniające „nie A” razem reprezentują wszystkie możliwe wyniki.
komentarz:
- taki wyświetlacz wizualny nazywa się „diagramem Venna.”Diagram Venna to prosty sposób na wizualizację zdarzeń i relacji między nimi za pomocą prostokątów i okręgów.
reguła 3 dotyczy zależności pomiędzy prawdopodobieństwem zdarzenia a prawdopodobieństwem jego zdarzenia dopełniającego.
biorąc pod uwagę, że zdarzenie a i zdarzenie „nie A” razem składają się na wszystkie możliwe wyniki, a ponieważ reguła 2 mówi nam, że suma prawdopodobieństw wszystkich możliwych wyników wynosi 1, następująca reguła powinna być dość intuicyjna:
reguła prawdopodobieństwa trzecia (reguła dopełnienia):
- P(not A) = 1 – P(a)
- to jest prawdopodobieństwo, że zdarzenie nie występuje wynosi 1 minus prawdopodobieństwo, że wystąpi.
przykład: grupy krwi
powrót do przykładowej grupy krwi:
oto kilka dodatkowych informacji:
- osoba z grupą a może oddać krew osobie z grupą a lub ab.
- osoba z grupą B może oddać krew osobie z grupą B lub AB.
- osoba z grupą AB może oddać krew tylko osobie z grupą AB.
- osoba z grupą krwi O może oddać każdemu.
Jakie jest prawdopodobieństwo, że losowo wybrana osoba nie może oddać krwi każdemu? Innymi słowy, jakie jest prawdopodobieństwo, że losowo wybrana osoba nie ma grupy krwi O? Musimy znaleźć P (nie O). Stosując regułę dopełniacza, P(nie O) = 1-P (O) = 1-0,44 = 0,56. Innymi słowy, 56% populacji USA nie ma grupy krwi O:
Oczywiście możemy również znaleźć P(Nie O) bezpośrednio, dodając prawdopodobieństwa B, AB i A.
komentarz:
- należy zauważyć, że reguła dopełniacza, P(nie A) = 1 – P(A) może być ponownie sformułowana jako P(A) = 1-p(nie a).
- P(not a) = 1 – p(a)
- można ponownie sformułować jako P(A) = 1-P(not a).
- ta pozornie trywialna manipulacja algebraiczna ma ważne zastosowanie i w rzeczywistości oddaje siłę reguły dopełniacza.
- w niektórych przypadkach, gdy znalezienie P(A) bezpośrednio jest bardzo skomplikowane, może być o wiele łatwiej znaleźć p(a nie A), a następnie po prostu odjąć go od 1, Aby uzyskać pożądane P(a).
- wkrótce wrócimy do tego komentarza i podamy dodatkowe przykłady.
- reguła dopełnienia może być przydatna, gdy łatwiej jest obliczyć prawdopodobieństwo dopełnienia zdarzenia, a nie samego zdarzenia.
- Uwaga, ponownie użyliśmy wyrażenia „co najmniej jeden.”
- teraz widzieliśmy, że dopełnieniem „co najmniej jednego … „jest” brak … „lub” nie ….”( jak już wcześniej wspominaliśmy w kategoriach wydarzeń będących „przeciwieństwami”).
- w powyższej czynności widzimy, że
- P(żadne z tych dwóch skutków ubocznych) = 1 – P(co najmniej jedno z tych dwóch skutków ubocznych)
- jest to powszechne zastosowanie reguły dopełniacza, którą często można rozpoznać po zdaniu „co najmniej jeden” w problemie.
prawdopodobieństwo wystąpienia wielu zdarzeń
często będziemy zainteresowani znalezieniem prawdopodobieństwa wystąpienia wielu zdarzeń, takich jak
- P(a lub B) = P(Zdarzenie A występuje lub zdarzenie B występuje lub oba występują)
- p(a i B)= P(zarówno Zdarzenie a, jak i Zdarzenie B występuje)
wspólny problem z terminologią odnosi się do tego, jak zwykle myślimy o „lub” w naszym codziennym życiu. Na przykład, gdy rodzic mówi do swojego dziecka w sklepie z zabawkami „do you want toy A or toy B?”, oznacza to, że dziecko dostanie tylko jedną zabawkę i musi wybrać między nimi. Zdobycie obu zabawek zwykle nie wchodzi w grę.
w przeciwieństwie do:
w prawdopodobieństwie „lub” oznacza jedno lub drugie lub oba.
i tak P(A lub B) = P(Zdarzenie A występuje lub zdarzenie B występuje lub oba występują)
powiedziawszy to, należy zauważyć, że istnieją przypadki, w których po prostu niemożliwe jest, aby oba zdarzenia wystąpiły w tym samym czasie.
zasada prawdopodobieństwa cztery
rozróżnienie między zdarzeniami, które mogą wydarzyć się razem, a tymi, które nie mogą, jest ważne.
: Dwa zdarzenia, które nie mogą wystąpić w tym samym czasie, nazywane są rozłącznymi lub wzajemnie się wykluczającymi. (Użyjemy disjoint.)
z obrazka powinno być jasne, że
- w pierwszym przypadku, gdzie zdarzenia nie są rozłączne, P(A i B) ≠ 0
- w drugim przypadku, gdzie zdarzenia są rozłączne, P(A i B) = 0.
oto dwa przykłady:
przykład:
rozważmy następujące dwa zdarzenia:
a — losowo wybrana osoba ma grupę krwi A i
b — losowo wybrana osoba ma grupę krwi B.
w rzadkich przypadkach możliwe jest, że osoba ma więcej niż jeden rodzaj krwi przepływającej przez jej żyły, ale dla naszych celów Zakładamy, że każda osoba może mieć tylko jedną grupę krwi. Dlatego nie jest możliwe, aby zdarzenia A i B występowały razem.
- zdarzenia A i B są rozłączne
z drugiej strony …
przykład:
rozważmy dwa następujące zdarzenia:
a — losowo wybrana osoba ma grupę krwi a
b — losowo wybrana osoba to kobieta.
w tym przypadku możliwe jest wystąpienie zdarzeń A i B razem.
- zdarzenia A i B nie są rozłączne.
diagramy Venna sugerują, że innym sposobem myślenia o zdarzeniach disjoint vs not disjoint jest to, że zdarzenia disjoint nie nakładają się na siebie. Nie podzielają żadnego z możliwych rezultatów, a zatem nie mogą się zdarzyć razem.
z drugiej strony, zdarzenia, które nie są rozłączne, nakładają się na siebie w tym sensie, że dzielą niektóre z możliwych wyników i dlatego mogą wystąpić w tym samym czasie.
zaczynamy od prostej reguły znajdowania P(A lub B) dla zdarzeń rozłącznych.
czwarta reguła prawdopodobieństwa (reguła dodawania dla zdarzeń rozłącznych):
- Jeśli a i B są zdarzeniami rozłącznymi, to P(A lub B) = P(A) + P(B).
komentarz:
- w przypadku prawdopodobieństwa słowo ” lub ” będzie zawsze związane z operacją dodawania; stąd nazwa tej reguły, ” reguła dodawania.”
przykład: grupy krwi
przypomnij sobie przykład grupy krwi:
oto kilka dodatkowych informacji
- osoba z grupą Acan oddała krew osobie z grupą A lub AB.
- osoba z grupą B może oddać krew osobie z grupą B lub AB.
- osoba z grupą AB może oddać krew osobie z grupą AB
- osoba z grupą AB może oddać krew każdemu.
Jakie jest prawdopodobieństwo, że losowo wybrana osoba jest potencjalnym dawcą osoby z grupą krwi A?
z podanych informacji wiemy, że bycie potencjalnym dawcą osoby z grupą krwi a oznacza posiadanie grupy krwi a lub O.
dlatego musimy znaleźć P(A lub O). Ponieważ zdarzenia A I O są disjoint, możemy użyć reguły dodawania dla zdarzeń disjoint, aby uzyskać:
- P(a LUB O) = P(A) + P(O) = 0.42 + 0.44 = 0.86.
łatwo zrozumieć, dlaczego dodawanie prawdopodobieństwa ma sens.
Jeśli 42% populacji ma grupę krwi A i 44% populacji ma grupę krwi O,
- to 42% + 44% = 86% populacji ma grupę krwi a LUB O, a zatem są potencjalnymi dawcami osoby z grupą krwi A.
to rozumowanie o tym, dlaczego zasada dodawania ma sens, można zobrazować za pomocą poniższego wykresu kołowego:
komentarz:
- regułę dodawania zdarzeń rozłącznych można oczywiście rozszerzyć na więcej niż dwa zdarzenia rozłączne. Weźmy na przykład trzy. Jeśli A, B I C są trzema zdarzeniami rozłącznymi
następnie P(A lub B lub C) = P(A) + P(B) + P(C). Zasada jest taka sama dla dowolnej liczby zdarzeń rozłącznych.
skończyliśmy z pierwszą wersją reguły dodawania (reguła czwarta), która jest wersją ograniczoną do zdarzeń rozłącznych. Przed omówieniem drugiej wersji, musimy najpierw omówić P (A i B).
znajdowanie P(A i B) za pomocą logiki
przejdźmy teraz do obliczania
- P(a i B)= P(występuje zarówno Zdarzenie a, jak i Zdarzenie b)
później omówimy zasady obliczania P(A i B).
Po pierwsze, Chcemy zilustrować, że reguła nie jest potrzebna, gdy można określić odpowiedź za pomocą logiki i liczenia.
specjalny przypadek:
istnieje jeden szczególny przypadek, dla którego wiemy, co równa się P(A i B) bez zastosowania żadnej reguły.
tak więc, jeśli zdarzenia a i B są rozłączne, to (z definicji) P(A i B)= 0. Ale co, jeśli Wydarzenia nie są połączone?
przypomnij sobie, że reguła 4, reguła dodawania, ma dwie wersje. Jeden jest ograniczony do disjoint events, które już omówiliśmy, a bardziej ogólną wersją zajmiemy się później w tym module. To samo dotyczy prawdopodobieństw obejmujących i
jednak, z wyjątkiem szczególnych przypadków, będziemy polegać na logice, aby znaleźć P (A i B) w tym kursie.
przed omówieniem jakichkolwiek formalnych reguł, spójrzmy na przykład, w którym zdarzenia nie są rozłączne.
przykład: stan przyzębia i płeć
rozważ następującą tabelę dotyczącą stanu przyzębia osób i ich płci. Stan przyzębia odnosi się do choroby dziąseł, gdzie osoby są klasyfikowane jako zdrowe, mają zapalenie dziąseł, lub choroby przyzębia.
ten typ tabeli widzieliśmy już wcześniej, gdy omawialiśmy analizę danych w przypadku C → C. Na potrzeby tego pytania wykorzystamy te dane jako naszą „populację” i rozważymy losowy wybór jednej osoby.
lubimy zadawać pytania dotyczące prawdopodobieństwa podobne do poprzedniego przykładu (przy użyciu dwukierunkowej tabeli opartej na danych), ponieważ pozwala to na nawiązywanie połączeń między tymi tematami i pomaga zachować świeżość tego, czego nauczyłeś się o danych w swoim umyśle.
reguła prawdopodobieństwa 5
jesteśmy teraz gotowi do przejścia do rozszerzonej wersji reguły dodawania.
w tej sekcji dowiemy się, jak znaleźć P(A lub B), gdy A i B niekoniecznie są rozłączne.
- tę rozszerzoną wersję nazwiemy „ogólną regułą dodawania” i określimy ją jako regułę prawdopodobieństwa piątą.
zaczniemy od podania reguły i podania przykładu podobnego do typów problemów, o które zwykle pytamy w tym kursie. Następnie przedstawimy kolejny przykład, w którym nie mamy surowych danych z próbki do pracy.
reguła prawdopodobieństwa piąta:
- ogólna reguła dodawania: P(A lub B) = P(A) + P(B) – P(A i B).
Uwaga: najlepiej jest użyć logiki, aby znaleźć P(A i B), a nie inną formułę.
bardzo częstym błędem jest nieprawidłowe stosowanie reguły mnożenia dla niezależnych zdarzeń opisanych na następnej stronie. Będzie to poprawne tylko wtedy, gdy a i B są niezależne (patrz definicje do naśladowania), co rzadko zdarza się w danych przedstawionych w tabelach dwukierunkowych.
jak byliśmy świadkami w poprzednich przykładach, kiedy te dwa zdarzenia nie są ze sobą powiązane, zachodzi pewne nakładanie się zdarzeń.
- Jeśli po prostu dodamy oba prawdopodobieństwa do siebie, otrzymamy złą odpowiedź, ponieważ policzyliśmy pewne „prawdopodobieństwo” dwa razy!
- tak więc, musimy odjąć to” dodatkowe ” prawdopodobieństwo, aby uzyskać prawidłową odpowiedź. Diagram Venna i tabele dwukierunkowe są pomocne w wizualizacji tego pomysłu.
Ta reguła jest bardziej ogólna, ponieważ działa dla każdej pary zdarzeń (nawet zdarzeń rozłącznych). Naszą radą jest nadal próbować odpowiedzieć na pytanie za pomocą logiki i liczenia, gdy tylko jest to możliwe, w przeciwnym razie musimy być bardzo ostrożni, aby wybrać właściwą regułę dla problemu.
zasada:
Jeśli możesz obliczyć prawdopodobieństwo za pomocą logiki i liczenia, nie potrzebujesz reguły prawdopodobieństwa (chociaż zawsze można zastosować poprawną regułę)
zauważ, że jeśli A i B są rozłączne, to P(A i B) = 0 i reguła 5 redukują się do reguły 4 w tym szczególnym przypadku.
wróćmy do ostatniego przykładu:
przykład: stan przyzębia i płeć
rozważ losowo wybranie jednej osoby z tych przedstawionych w poniższej tabeli dotyczących stanu przyzębia osób i ich płci. Stan przyzębia odnosi się do choroby dziąseł, gdzie osoby są klasyfikowane jako zdrowe, mają zapalenie dziąseł, lub choroby przyzębia.
przejrzyjmy to, czego do tej pory się nauczyliśmy. Możemy obliczyć dowolne Prawdopodobieństwo w tym scenariuszu, jeśli możemy określić, ile osób spełnia zdarzenie lub kombinację zdarzeń.
- p(Mężczyzna) = 3009/8027 = 0, 3749
- p(Kobieta) = 5018/8027 = 0, 6251
- p(zdrowy) = 3750/8027 = 0, 4672
- p(niezdrowy) = P(zapalenie dziąseł lub Perio) = (2419 + 1858)/8027 = 4277/8027 = 0.5328
Możemy również obliczyć to za pomocą reguły dopełniacza: 1-P (zdrowy)
wcześniej odkryliśmy również, że
- P(męski i zdrowy) = 1143/8027 = 0.1424
Teraz używamy tej reguły do obliczenia P(mężczyzna lub zdrowy)
- P(Mężczyzna lub zdrowy) = P(Mężczyzna) + P (zdrowy) – P (Mężczyzna i zdrowy) = 0.3749 + 0.4672 – 0.1424 = 0.6997 lub około 70%
rozwiązaliśmy to pytanie wcześniej, po prostu licząc, ile osób Jest mężczyzn lub zdrowych lub obu. Poniższy obraz ilustruje wartości, które musimy połączyć. Musimy policzyć
- wszystkich mężczyzn
- wszystkie zdrowe osoby
- ale nie licz nikogo dwa razy!!
używając tego logicznego podejścia znajdujemy
- P(męski lub zdrowy) = (1143 + 929 + 937 + 2607)/8027 = 5616/8027 = 0.6996
mamy niewielką różnicę w naszych odpowiedziach w ostatnim miejscu po przecinku z powodu zaokrąglenia, które miało miejsce, gdy obliczyliśmy P(męski), P(zdrowy) i P (męski i zdrowy), a następnie zastosowaliśmy zasadę 5.
oczywiście odpowiedź jest rzeczywiście taka sama, około 70%. Gdybyśmy przenieśli nasze odpowiedzi do większej liczby miejsc po przecinku lub użyli ułamków oryginalnych, moglibyśmy całkowicie wyeliminować tę małą rozbieżność.
spójrzmy na ostatni przykład, aby zilustrować regułę prawdopodobieństwa 5, gdy reguła jest potrzebna – tj. gdy nie mamy rzeczywistych danych.
przykład: ważna dostawa!
ważne jest, aby dany dokument dotarł do miejsca przeznaczenia w ciągu jednego dnia. Aby zmaksymalizować szanse dostawy na czas, dwie kopie dokumentu są wysyłane za pomocą dwóch usług, usługi a i usługi B. wiadomo, że prawdopodobieństwo dostawy na czas to:
- 0.90 dla usługi A (P(A) = 0.90)
- 0.80 dla usługi B (P(B) = 0.80)
- 0.75 dla obu usług na czas(P(A i B) = 0.75)
(zauważ, że A i B nie są połączone. Mogą wystąpić razem z prawdopodobieństwem 0,75.)
poniższe diagramy Venna ilustrują prawdopodobieństwo P(A), P(B) oraz P(A i B):
w kontekście tego problemu oczywistą kwestią zainteresowań jest:
- jakie jest prawdopodobieństwo terminowego dostarczenia dokumentu za pomocą tej strategii (wysłania go za pośrednictwem obu usług)?
dokument dotrze do miejsca przeznaczenia na czas, o ile zostanie dostarczony na czas przez usługę A lub usługę B lub przez obie usługi. Innymi słowy, gdy występuje zdarzenie A lub zdarzenie B lub oba występują. więc …
p(na czas dostawy przy użyciu tej strategii)= P(A lub B), który jest reprezentowany przez obszar cieniowany na poniższym diagramie:
możemy teraz
- użyć trzech diagramów Venna reprezentujących P(A), P(B) I P(A i B)
- , aby zobaczyć, że możemy znaleźć P(A lub B), dodając P(A) (reprezentowane przez lewe koło) I P(B) (reprezentowane przez prawe koło),
- następnie odejmując P(A i B) (reprezentowane przez nakładanie się), ponieważ uwzględniliśmy je dwa razy, raz jako część p(a) i raz jako część p(B).
jest to pokazane na poniższym obrazku:
Jeśli zastosujemy to do naszego przykładu, okaże się, że:
- P (a lub B)= P (dostawa na czas przy użyciu tej strategii)= 0.90 + 0.80 – 0.75 = 0.95.
tak więc nasza strategia korzystania z dwóch usług kurierskich zwiększa nasze prawdopodobieństwo dostawy na czas do 0,95.
podczas gdy diagramy Venna były świetne do wizualizacji ogólnej reguły dodawania, w takich przypadkach znacznie łatwiej jest wyświetlić informacje i pracować z dwukierunkową tabelą prawdopodobieństw, podobnie jak zbadaliśmy zależność między dwiema zmiennymi kategorycznymi w sekcji Exploratory Data Analysis.
Po prostu pokażemy Ci tabelę, a nie jak ją wyciągniemy, ponieważ nie zostaniesz poproszony o zrobienie tego za nas. Powinieneś być w stanie zobaczyć, że pewna logika i proste dodawanie/odejmowanie to wszystko, czego użyliśmy do wypełnienia poniższej tabeli.
korzystając z tabeli dwukierunkowej, musimy pamiętać, aby spojrzeć na cały wiersz lub kolumnę, aby znaleźć ogólne prawdopodobieństwo dotyczące tylko A lub tylko B.
- P(a) = 0.90 oznacza, że w 90% przypadków, gdy używana jest usługa A, dostarcza ona dokument na czas. Aby to znaleźć, patrzymy na całkowite prawdopodobieństwo dla wiersza zawierającego A. znajdując P (A), nie wiemy, czy b się dzieje, czy nie.
- P(b) = 0.80 oznacza, że w 80% przypadków, gdy używana jest usługa B, dostarcza dokument na czas. Aby to znaleźć, patrzymy na całkowite prawdopodobieństwo dla kolumny zawierającej B. znajdując P(B), nie wiemy, czy A się dzieje, czy nie.
komentarz
- kiedy w sekcji Exploratory Data Analysis (Eda) zastosowaliśmy tabele dwukierunkowe, było to zapisanie wartości dwóch zmiennych kategorycznych dla konkretnej próbki osób.
- natomiast informacje w dwukierunkowej tabeli prawdopodobieństwa dotyczą całej populacji, a wartości są raczej abstrakcyjne.
- gdybyśmy potraktowali coś takiego jak przykład dostawy w sekcji EDA, zapisalibyśmy rzeczywistą liczbę dostaw na czas (i nie na czas) dla próbek dokumentów wysłanych z usługą a lub B.
- w tej sekcji długoterminowe prawdopodobieństwa są przedstawione jako znane.
- przypuszczalnie, podane w tym przykładzie prawdopodobieństwa były oparte na względnych częstotliwościach rejestrowanych w wielu powtórzeniach.
zasada zaokrąglania prawdopodobieństwa:
postępuj zgodnie z poniższymi ogólnymi wytycznymi w tym kursie. W razie wątpliwości noś więcej miejsc po przecinku. Jeśli określimy dokładnie to, co jest wymagane.
- w przypadku kroków pośrednich prawdopodobieństwo powinno wynosić co najmniej 4 miejsca po przecinku.
- często zaokrąglamy naszą ostateczną odpowiedź do dwóch lub trzech miejsc po przecinku.
- w przypadku bardzo małych prawdopodobieństw ważne jest, aby mieć 1 lub dwie cyfry znaczące (niezerowe), takie jak 0.000001 lub 0.000034 itp.
wiele pakietów komputerowych może wyświetlać bardzo małe wartości przy użyciu notacji naukowej, takiej jak
- 58×10-5 lub 1.58 E-5, aby reprezentować 0.0000158
podsumujmy
do tej pory w naszym badaniu prawdopodobieństwa zapoznano cię z czasem przeciwintuicyjną naturą prawdopodobieństwa i podstawami leżącymi u podstaw prawdopodobieństwa, takimi jak względna częstotliwość.
daliśmy Ci również kilka narzędzi, które pomogą Ci znaleźć prawdopodobieństwo zdarzeń — mianowicie reguły prawdopodobieństwa.
prawdopodobnie zauważyłeś, że sekcja prawdopodobieństwa znacznie różniła się od dwóch poprzednich sekcji; ma znacznie większy komponent techniczny/matematyczny, więc wyniki wydają się być bardziej „dobre lub złe”.
w sekcji eksploracyjnej analizy danych, w większości przypadków, komputer zajmował się aspektem technicznym rzeczy, a naszym zadaniem było powiedzieć mu, aby zrobił to, co należy, a następnie zinterpretować wyniki.
w przypadku prawdopodobieństwa wykonujemy pracę od początku do końca, od wyboru odpowiedniego narzędzia (reguły) do użycia, do prawidłowego użycia, do interpretacji wyników.
oto podsumowanie zasad, które do tej pory przedstawiliśmy.
1. Zasada prawdopodobieństwa # 1 stwierdza:
- dla dowolnego zdarzenia A, 0 ≤ P(A) ≤ 1
2. Zasada prawdopodobieństwa # 2 stwierdza:
- suma prawdopodobieństw wszystkich możliwych wyników wynosi 1
3. Reguła dopełniacza (#3) stwierdza, że
- P(not A) = 1 – P(a)
lub gdy jest ona uporządkowana
- P(a) = 1 – P(not a)
ostatnią reprezentacją reguły dopełniacza jest szczególnie przydatne, gdy potrzebujemy znaleźć prawdopodobieństwo zdarzeń typu „co najmniej jedno z …”
4. Ogólna reguła dodawania (#5) stwierdza, że dla dowolnych dwóch zdarzeń,
- P(a lub B) = P(A) + P(B) – P(A i B),
gdzie przez P(A lub B) rozumiemy P (A występuje lub B występuje lub oba).
w szczególnym przypadku zdarzeń disjoint, zdarzeń, które nie mogą wystąpić razem, ogólną regułę dodawania można zredukować do reguły dodawania dla zdarzeń Disjoint (#4), która jest
- P(a lub B) = P(A) + P(B). *
* używaj tylko wtedy, gdy jesteś przekonany, że zdarzenia są rozłączne (nie nakładają się)
5. Ograniczona wersja reguły dodawania (dla zdarzeń rozłącznych) może być łatwo rozszerzona na więcej niż dwa zdarzenia.
6. Do tej pory znaleźliśmy tylko P (A i B) używając logiki i liczenia w prostych przykładach