Този модул ще продължи обсъждането на тестването на хипотези, където се генерира конкретно твърдение или хипотеза относно параметър на популацията и се използват примерни статистически данни, за да се оцени вероятността хипотезата да е вярна. Хипотезата се основава на наличната информация и убежденията на изследователя относно параметрите на популацията. Специфичният тест, разгледан тук, се нарича дисперсионен анализ (ANOVA) и е тест на хипотеза, който е подходящ за сравняване на средствата на непрекъсната променлива в две или повече независими групи за сравнение. Например в някои клинични изпитвания има повече от две групи за сравнение. В клинично изпитване за оценка на ново лекарство за астма, изследователите могат да сравнят експериментално лекарство с плацебо и със стандартно лечение (т.е. лекарство, което се използва в момента). В обсервационно проучване като Framingham Heart Study може да представлява интерес да се сравнят средното кръвно налягане или средните нива на холестерол при хора с поднормено тегло, нормално тегло, наднормено тегло и затлъстяване.

тестване

Техниката за тестване на разлика в повече от две независими средства е разширение на обсъдената по-рано процедура за независими проби, която се прилага, когато има точно две независими групи за сравнение. Техниката ANOVA се прилага, когато има две или повече от две независими групи. Процедурата ANOVA се използва за сравняване на средствата на групите за сравнение и се провежда, използвайки същия петстепенен подход, използван в сценариите, обсъдени в предишните раздели. Тъй като има повече от две групи, изчисляването на тестовата статистика е по-ангажирано. Статистиката на теста трябва да отчита размерите на пробите, средните стойности на пробата и стандартните отклонения на пробите във всяка от групите за сравнение.

Ако някой изследва средствата, наблюдавани сред, да речем три групи, може да се изкуши да извършите три отделни сравнения на групи, но този подход е неправилен, тъй като всяко от тези сравнения не отчита общите данни и това увеличава вероятността на неправилно заключение, че има статистически значими разлики, тъй като всяко сравнение добавя към вероятността за грешка от тип I. Анализът на дисперсията избягва тези проблеми, като задава по-глобален въпрос, т.е. дали има значителни разлики между групите, без да се обръща внимание на разликите между всякакви две групи по-специално (въпреки че има допълнителни тестове, които могат да направят това, ако анализът на дисперсията показва, че има разлики между групите).

Основната стратегия на ANOVA е систематично да изследва променливостта в сравняваните групи и също така да изследва променливостта между сравняваните групи.

След завършване на този модул студентът ще може да:

  1. Извършете анализ на дисперсията на ръка
  2. Тълкувайте подходящо резултатите от анализа на дисперсионните тестове
  3. Разграничете един и два факторни анализа на дисперсионните тестове
  4. Идентифицирайте подходящата процедура за тестване на хипотеза въз основа на типа променлива на резултата и броя на пробите

Да разгледаме пример с четири независими групи и непрекъснато измерване на резултатите. Независимите групи могат да бъдат определени от определена характеристика на участниците като ИТМ (напр. Поднормено тегло, нормално тегло, наднормено тегло, затлъстяване) или от изследователя (напр. Рандомизиране на участниците на едно от четирите конкурентни лечения, наречете ги A, B, C и D). Да предположим, че резултатът е систолично кръвно налягане и ние искаме да тестваме дали има статистически значима разлика в средното систолично кръвно налягане сред четирите групи. Данните от извадката са организирани, както следва:

Група 1

Група 2

Група 3

Група 4

Размер на пробата

Средна проба

Примерно стандартно отклонение

Хипотезите за интерес към ANOVA са както следва:

където k = броят на независимите групи за сравнение.

В този пример хипотезите са:

Нулевата хипотеза в ANOVA винаги е, че няма разлика в средствата. Изследването или алтернативната хипотеза винаги е, че средствата не са всички равни и обикновено се пишат с думи, а не с математически символи. Изследователската хипотеза улавя всякаква разлика в средствата и включва например ситуацията, когато и четирите средства са неравномерни, когато едното е различно от останалите три, когато две са различни и т.н. Алтернативната хипотеза, както е показано по-горе, обхваща всички възможни ситуации, различни от равенството на всички средства, посочени в нулевата хипотеза.

Статистика на теста за ANOVA

Статистиката на изпитването за изпитване H0: μ1 = μ2 =. = μk е:

и критичната стойност се намира в таблица на вероятностни стойности за F разпределението със (степени на свобода) df1 = k-1, df2 = N-k. Таблицата може да бъде намерена в „Други ресурси“ в лявата част на страниците.

В тестовата статистика nj = размерът на извадката в j-тата група (напр. J = 1, 2, 3 и 4, когато има 4 групи за сравнение), е средната стойност на пробата в j-тата група и е общата означава. k представлява броя на независимите групи (в този пример k = 4), а N представлява общия брой наблюдения в анализа. Обърнете внимание, че N не се отнася до размера на популацията, а вместо това до общия размер на извадката в анализа (сумата от размерите на извадката в групите за сравнение, напр. N = n1 + n2 + n3 + n4). Статистиката на теста е сложна, тъй като включва всички данни от извадката. Въпреки че не е лесно да се види разширението, показаната по-горе статистика F е обобщение на статистическата проба, използвана за тестване на равенството на точно две средства.

ЗАБЕЛЕЖКА: Тестовата статистика F предполага еднаква променливост в k популациите (т.е. вариациите на популацията са равни или s1 2 = s2 2 =. = Sk 2). Това означава, че резултатът е еднакво променлив във всяка от сравнителните популации. Това предположение е същото като предположението за подходящо използване на тестовата статистика за тестване на равенството на две независими средства. Възможно е да се оцени вероятността предположението за еднакви дисперсии да е вярно и тестът да може да се проведе в повечето статистически изчислителни пакети. Ако променливостта в k групите за сравнение не е сходна, тогава трябва да се използват алтернативни техники.

Статистиката F се изчислява, като се вземе отношението на така наречената променливост "между лечението" към променливостта "остатъчна или грешка". Оттук произлиза името на процедурата. В дисперсионния анализ тестваме за разлика в средните стойности (H0: всички средства са равни спрямо H1: средните не са всички равни) чрез оценка на променливостта в данните. Числителят улавя между вариабилността на лечението (т.е. разликите между средните стойности на извадката) и знаменателят съдържа оценка на вариабилността в резултата. Статистиката на теста е мярка, която ни позволява да оценим дали разликите между средните стойности на извадката (числител) са повече, отколкото биха очаквали случайно, ако нулевата хипотеза е вярна. Припомнете си, в двата независими теста за извадка, статистиката на теста беше изчислена чрез вземане на съотношението на разликата в средните стойности на извадката (числител) към променливостта в резултата (изчислено от Sp).

Правилото за вземане на решение за F теста в ANOVA е създадено по подобен начин на правилата за вземане на решения, установени от нас за t тестове. Правилото за решение отново зависи от нивото на значимост и степента на свобода. Статистиката F има две степени на свобода. Те се означават df1 и df2 и се наричат ​​съответно степени на свобода на числителя и знаменателя. Степените на свобода се определят, както следва:

където k е броят на групите за сравнение, а N е общият брой на наблюденията в анализа. Ако нулевата хипотеза е вярна, между вариацията на лечението (числител) няма да надвиши остатъчната или грешка вариация (знаменател) и F статистиката ще бъде малка. Ако нулевата хипотеза е невярна, тогава F статистиката ще бъде голяма. Регионът на отхвърляне за F теста винаги е в горната (дясна) опашка на разпределението, както е показано по-долу.

Регион на отхвърляне за F тест с a = 0,05, df1 = 3 и df2 = 36 (k = 4, N = 40)

За описания тук сценарий правилото за решение е: Отхвърлете H0, ако F > 2.87.

След това ще илюстрираме процедурата ANOVA, използвайки подхода от пет стъпки. Тъй като е включено изчисляването на тестовата статистика, изчисленията често се организират в ANOVA таблица. Таблицата ANOVA разделя компонентите на вариацията в данните на вариация между обработки и грешка или остатъчна вариация. Статистическите изчислителни пакети също произвеждат ANOVA таблици като част от стандартния им изход за ANOVA, а ANOVA таблицата е настроена, както следва: