Beispiele
Beispiel 1. Ein klinischer Ernährungsberater möchte zwei verschiedene Diäten, A und B, für Diabetiker vergleichen. Sie stellt die Hypothese auf, dass Diät A (Gruppe 1) in Bezug auf einen niedrigeren Blutzucker besser ist als Diät B (Gruppe 2). Sie plant, eine Stichprobe von Diabetikern zu erhalten und sie zufällig einer der beiden Diäten zuzuordnen. Am Ende des Experiments, das 6 Wochen dauert, wird an jedem Patienten ein Nüchternblutzuckertest durchgeführt. Sie erwartet auch, dass der durchschnittliche Unterschied im Blutzuckermaß zwischen den beiden Gruppen etwa 10 mg / dl betragen wird. Darüber hinaus geht sie auch davon aus, dass die Standardabweichung der Blutzuckerverteilung für Diät A 15 und die Standardabweichung für Diät B 17 beträgt. Der Ernährungsberater möchte wissen, wie viele Probanden in jeder Gruppe benötigt werden, vorausgesetzt, es werden gleich große Gruppen angenommen.
Beispiel 2. Ein Audiologe wollte den Einfluss des Geschlechts auf die Reaktionszeit auf eine bestimmte Schallfrequenz untersuchen. Er vermutete, dass Männer diese Art von Geräuschen besser erkennen konnten als Frauen. Er nahm eine Stichprobe von 20 männlichen und 20 weiblichen Probanden für dieses Experiment. Jedes Subjekt erhielt einen Knopf zum Drücken, wenn es den Ton hörte. Der Audiologe hat dann die Reaktionszeit gemessen – die Zeit zwischen dem Ausgeben des Tons und dem Drücken der Taste. Jetzt möchte er wissen, wie hoch die statistische Aussagekraft seiner insgesamt 40 Probanden ist, um den geschlechtsspezifischen Unterschied festzustellen.
Vorspiel zur Leistungsanalyse
Es gibt zwei verschiedene Aspekte der Leistungsanalyse. Eine besteht darin, die erforderliche Stichprobengröße für eine bestimmte Leistung wie in Beispiel 1 zu berechnen. Der andere Aspekt besteht darin, die Potenz zu berechnen, wennbei einer bestimmten Stichprobengröße wie in Beispiel 2. Technisch gesehen ist die Potenz die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn die spezifische Alternativhypothese wahr ist.
Für die Power-Analysen unten, werden wir uns auf Beispiel 1 konzentrieren, die Berechnung der Stichprobengröße für eine gegebene statistische Potenz der Prüfung der Unterschied in der Wirkung von Diät A und Diät B. Beachten Sie die Annahmen, die der Ernährungsberater gemacht hat, um die Power-Analyse durchzuführen. Hier sind die Informationen, die wir kennen oder annehmen müssen, um die Leistungsanalyse durchzuführen:
- Der erwartete Unterschied im durchschnittlichen Blutzucker; In diesem Fall wird er auf 10 gesetzt.
- Die Standardabweichungen des Blutzuckers für Gruppe 1 und Gruppe 2; In diesem Fall sind sie auf 15 bzw. 17 eingestellt.
- Der Alpha-Pegel oder die Typ-I-Fehlerrate, d. h. die Wahrscheinlichkeit, dass die Nullhypothese abgelehnt wird, wenn sie tatsächlich wahr ist. Eine gängige Praxis ist es, es auf die .05 Ebene.
- Das vordefinierte Niveau der statistischen Aussagekraft für die Berechnung des Stichprobenumfangs; dies wird eingestellt auf .8.
- Die vorgegebene Anzahl von Probanden zur Berechnung der statistischen Potenz; dies ist die Situation für Beispiel 2.
Beachten Sie, dass die Ernährungsberaterin im ersten Beispiel nicht den Mittelwert für jede Gruppe angegeben hat, sondern nur den Unterschied der beiden Mittelwerte. Dies liegt daran, dass sie nur an dem Unterschied interessiert ist, und es spielt keine Rolle, was die Mittel sind, solange der Unterschied derselbe ist.
Leistungsanalyse
In R ist es ziemlich einfach, eine Leistungsanalyse zum Vergleichen von Mitteln durchzuführen. Zum Beispiel können wir das pwr-Paket in R für unsere Berechnung verwenden, wie unten gezeigt. Wir geben zuerst die beiden Mittelwerte an, den Mittelwert für Gruppe 1 (Diät A) und den Mittelwert für Gruppe 2 (Diät B). Da es wirklich auf die Differenz ankommt, können wir anstelle der Mittelwerte für jede Gruppe einen Mittelwert von Null für Gruppe 1 und 10 für den Mittelwert von Gruppe 2 eingeben, sodass die Mittelwertdifferenz 10 beträgt. Als nächstes müssen wir die gepoolte Standardabweichung angeben, die die Quadratwurzel des Durchschnitts der beiden Standardabweichungen ist. In diesem Fall ist es sqrt((15^2 + 17^2)/2) = 16.03. Das Standard-Signifikanzniveau (Alpha-Level) ist .05. In diesem Beispiel setzen wir die Leistung auf at .8.
Die Berechnungsergebnisse zeigen, dass wir 42 Probanden für Diät A und weitere 42 Probanden für Diät B in unserer Stichprobe benötigen, um den Effekt zu erzielen. Verwenden wir nun ein anderes Mittelpaar mit dem gleichen Unterschied. Wie wir bereits besprochen haben, sollten die Ergebnisse gleich sein, und das sind sie auch.
Nun könnte die Ernährungsberaterin das Gefühl haben, dass eine Gesamtstichprobengröße von 84 Probanden ihr Budget übersteigt. Eine Möglichkeit, die Stichprobengröße zu reduzieren, besteht darin, die Fehlerrate vom Typ I oder den Alphawert zu erhöhen. Nehmen wir an, anstatt Alpha-Level von zu verwenden .05 wir werden verwenden .07. Dann reduziert sich unsere Stichprobengröße für jede Gruppe um 4, wie unten gezeigt.Angenommen, der Ernährungsberater kann nur Daten von 60 Probanden mit 30 in jeder Gruppe sammeln. Was wird die statistische Aussagekraft für ihren T-Test in Bezug auf Alpha-Level von sein .05?
Wie wir bereits besprochen haben, kommt es bei der Berechnung der Potenz oder Stichprobengröße wirklich auf die Differenz der Mittelwerte über der gepoolten Standardabweichung an. Dies ist ein Maß für die Effektgröße. Schauen wir uns nun an, wie sich die Effektgröße auf die Stichprobengröße auswirkt, wenn eine bestimmte Stichprobenleistung angenommen wird. Wir können einfach den Mittelwertunterschied annehmen und die Standardabweichung auf 1 setzen und eine Tabelle mit der Effektgröße d erstellen, die von variiert .2 bis 1.2.
Wir können diese Informationen auch einfach in einem Plot anzeigen.
plot(ptab,ptab,type="b",xlab="effect size",ylab="sample size")
Es zeigt, dass, wenn die wirkung größe ist kleine, wie.2 dann brauchen wir eine sehr große Stichprobengröße und diese Stichprobengröße sinkt mit zunehmender Effektgröße. Wir können auch easilyplot Leistung gegen Stichprobengröße für eine gegebene Effekte Größe, sagen wir, d = 0.7
pwrt
Diskussion
Eine wichtige technische Annahme ist die Annahme der Normalität. Wenn die Verteilung verzerrt ist, weist eine kleine Stichprobengröße möglicherweise nicht die in den Ergebnissen angegebene Potenz auf, da der Wert in den Ergebnissen mithilfe der Methode berechnet wird, die auf der Normalitätsannahme basiert. Wir haben gesehen, dass wir, um die Potenz oder die Stichprobengröße zu berechnen, eine Reihe von Annahmen treffen müssen. Diese Annahmen werden nicht nur zum Zwecke der Berechnung verwendet, sondern auch im eigentlichen t-Test selbst. Ein wichtiger Nebeneffekt der Leistungsanalyse besteht also darin, dass wir unsere Designs und unsere Hypothesen besser verstehen können.
Wir haben im Leistungsberechnungsprozess gesehen, dass es beim T-Test mit zwei unabhängigen Stichproben auf den Unterschied in den Mittelwerten und den Standardabweichungen für die beiden Gruppen ankommt. Dies führt zum Konzept der Effektgröße. In diesem Fall ist die Effektgröße die Differenz der Mittelwerte über der gepoolten Standardabweichung. Je größer die Effektgröße, desto größer die Potenz für eine gegebene Stichprobengröße. Oder, je größer die Effektgröße, die kleinere Stichprobengröße benötigt, um die gleiche Leistung zu erzielen. Eine gute Schätzung der Effektgröße ist also der Schlüssel zu einer guten Leistungsanalyse. Es ist jedoch nicht immer einfach, die Effektgröße zu bestimmen. Gute Schätzungen der Effektgröße stammen aus der vorhandenen Literatur oder aus Pilotstudien.