Как да тестваме независимостта на две категорични променливи? Това ще бъде направено с помощта на хи-квадрат теста за независимост.

двете категориални

Както при всички предишни статистически тестове, ние трябва да дефинираме нулеви и алтернативни хипотези. Също така, както разбрахме, нулевата хипотеза е това, което се приема за вярно, докато имаме доказателства, които да противоречат на това. В този урок се интересуваме от изследването дали две категориални променливи са свързани или свързани (т.е. зависими). Следователно, докато имаме доказателства, които да подсказват, че са, трябва да приемем, че не са. Това е мотивацията зад хипотезата за Теста за независимост Хи-квадрат:

  • \ (H_0 \): В популацията двете категориални променливи са независими.
  • \ (H_a \): В популацията двете категориални променливи са зависими.

Забележка! Има няколко начина за формулиране на тези хипотези. Вместо да се използват думите "независим" и "зависим", може да се каже "няма връзка между двете категориални променливи" срещу "има връзка между двете категориални променливи." Или "няма връзка между двете категорични променливи" срещу "има връзка между двете променливи." Важната част е, че нулевата хипотеза се отнася до двете категориални променливи, които не са свързани, докато алтернативата се опитва да покаже, че са свързани.

След като съберем данните си, обобщаваме данните в двупосочната непредвидена таблица. Тази таблица представлява наблюдаваното броене и се нарича Таблица на наблюдаваните преброявания или просто Наблюдавана таблица. Таблицата за непредвидени обстоятелства на уводната страница на този урок представляваше наблюдаваното преброяване на партийната принадлежност и мнение на анкетираните.

Въпросът става: "Как би изглеждала тази таблица, ако двете променливи не бяха свързани?" Тоест, при нулевата хипотеза, че двете променливи са независими, как бихме очаквали да изглеждат данните ни?

Обмислете следната таблица:

Общ неуспех Група 1 Група 2 Обща сума
A Б. A + B
° С д C + D
A + C B + D A + B + C + D

Общият брой е \ (A + B + C + D \). Нека се съсредоточим върху една клетка, да речем Група 1 и Успех с наблюдаван брой А. Ако се върнем към нашия урок за вероятност, нека \ (G_1 \) означава събитието 'Група 1' и \ (S \) означава събитието 'Успех. ' Тогава,

Спомнете си, че ако две събития са независими, тогава тяхното пресичане е продукт на съответните им вероятности. С други думи, ако \ (G_1 \) и \ (S \) са независими, тогава.

Ако разглеждаме броенията вместо вероятностите, тогава получаваме броя, като умножим вероятността по общия брой. С други думи.

Това е броят, който бихме направили очаквам да се види дали двете променливи са независими (т.е. ако приемем, че нулевата хипотеза е вярна).

Очакваният брой за всяка клетка при нулевата хипотеза е: