Нейтън Брауър | [email protected] | @lobrowR

2018-12-10

Въведение в изследването на графични данни

Графичното проучване е необходимо за контрол на качеството и за да разберете как да модулирате данните си. Все по-често авторите предоставят графики на суровите данни в приложения, за да могат читателите да получат по-добро разбиране на данните.

За вашия независим проект (през 2018 г.) просто трябва да предоставите скриптов файл, който извършва съответни изследователски анализи.

Вижте Zuur et al 2010 за повече информация.

Този файл

Този файл съдържа ръководство за ключови задачи за проучване на данни. Той е особено ориентиран към данните за регресия, но принципите се прилагат като цяло за всички данни.

Предварителни

Заредете пакети

Заредете данни

(Забележка: оригиналните файлове се наричат ​​„skibiel_mammalsmilk.csv“ в пакета mammalsmilk. Данните са дублирани тук, но им е дадено ново име („Appendix-2-Analysis-Data_mammalsmilkRA.csv“), за да направи това самостоятелен сборник за анализ. )

Заредете данни в R

Ако сте инсталирали пакета mammalsmilkRA, .csv “Appendix-2-Analysis-Data_mammalsmilkRA.csv” ще бъде запазен в директорията mammalsmilkRA R, създадена за съхраняване на свързани с пакета файлове. Можете да намерите къде се намира този файл, като потърсите файла във вашата файлова система (напр. „File explorer“ в Windows) и след това или зададете местоположенията му като ваш работен каталог или запазите файла на по-удобни места.

Друга възможност е да го заредите директно от пакета mammalsmilkRA; повечето анализи не са опаковани в пакет, така че това е уникален пряк път, който съм настроил.

Проверете въведеното

Все още трябва да се направи почистване?

Графични проучвателни анализи

Следвам протокола, очертан от Zuur et al 2010 Протокол за изследване на данни, за да се избегнат често срещани статистически проблеми. Методи в екологията и еволюцията 1: 3-14.

Проучване на данни 1: Изследване по-далеч

Проучване на данни 1а: Изследване с по-големи резултати с полета

В този анализ основните ми променливи са

  1. Предиктор (x): Телесна маса на майките (mass.fem)
  2. Отговор (y):% млечна мазнина от мляко (мазнина)

Ще разгледам всеки с парцел. Ако не начертавам с променлива за групиране, не се нуждая от ‘x =’ в ggboxplot ().

Ще направя всеки парцел и ще го съхранявам в R обект, след което ще направя един до друг парцел с помощта на cowplot: plot_grid ()

Първо, направете графиките

изследователски

Изглежда, че има изключителни стойности в материалната маса. Ще видя дали трансформацията на регистрационния файл помага за това.

Дневник на графика (маса) и мазнини

Изследване на данни 1b: Изследване с по-големи точки с точки

Точковият парцел (или Кливланд) може да се отнася до няколко неща. За целите на проучването на данните и диагностиката, дотплот в Кливланд нанася цифрова стойност (x или y) спрямо стойност на индекса. Стойността на индекса може да бъде

  • редът на наблюдението попада в данните (1 = 1-во наблюдение)
  • ранга на наблюдението в рамките на данните (1 = най-малкото наблюдение)

В ggpubr функцията ggdotchart () приема числовата стойност на интереса като y променлива. За променливата x ggdotchart може да вземе числова променлива или категорична променлива. След това ggdotchart () сортира y-променливата от най-малката до най-голямата стойност и я нанася срещу оста x, която се третира като категорична променлива (дори ако е числова). Това е малко по-различно от това, което прави основната функция R dotchart (), което е представено в доклада Zuur et al 2010.

За променливата x това, което мисля, че работи добре, е да се даде и ggdotchart ()

  1. Категорична променлива с много нива
  2. Индекс от порядъка на

Точкова графика за променлива на отговора (y)

Начертайте точковата диаграма въз основа на стойността на индекса. ggpubr ни позволява да оцветяваме кода по биом, което е хубаво. Като цяло това, което търсим, е голям скок между точките от данни, което показва необичайно наблюдение, което може да се дължи на a грешка при въвеждане на данни.

Можем също така да фасетираме чрез диета

Начертайте точковата диаграма въз основа на видовете. Това е грозно, защото имената на видовете са толкова дълги.

Има няколко вида на семейство; това прави интересна перспектива за това как размерът корелира със семейството, защото сега има множество стойности по оста y за всяка стойност по оста x.

Подобно за семейството, с изключение на повече точки. Имайте предвид, че Carnivore сега се откроява, тъй като има относително голямо количество вариации

Dotplot за предикторска променлива (x)

В моите месоядни животни има точки за данни, които стърчат много. Това може да е загрижено. Две неща обаче

1. Има плавен пристъп; тоест най-високата точка е част от нарастваща тенденция.
1. Знам, че тези данни са масите на бозайниците, които варират от мишки до китове.

Така че, този dotplot не се отнася, но все пак трябва да проверя двойно високите стойности. Не би навредило да влезете в трансформацията и да проверите отново след това.

Изследване на данни 2: Хомогенност на Y, използвайки условен график

Условен график е поле за данни, разделено на отделни групи от съответните групи. Следователно разпределението на данните (графиката на полето) зависи или зависи от променливата за групиране. В термините на математиката можем да напишем „разпределение (y | група)“, където „|“ означава "зависи от". (това не е истинско нещо, а просто трябва да предизвиква изявление за вероятност като Pr (Ho | данни)).

Хомогенността на променливата y е предположение за линейни модели - и е важна. (Спомнете си, че „хомогенност“ се отнася до хомогенност на вариацията, известна също като хомоскедастичност) За разлика от това линейните модели не предполагат нищо за разпределението на променливата x. Добра идея е да направите и полета за вашите променливи x (предиктор), само за да сте сигурни, че сте запознати с данните и да сте сигурни, че няма нищо глупаво.

Когато нещата не са еднородни (= heterskedastic) трансформацията може да помогне да се оправят нещата. В следващото ще изследвам променливите x и y с boxplot и ще изпробвам трансформация на дневник, за да поправя нещата.

Данни за нетрансформирана млечна мазнина условна кутия

Данните не са изкривени, но:

  1. Дисперсията изглежда различна между групите
  2. Данните за процента задължително са ограничени между 0 и 100%, което ги прави по същество ненормални

Условно поле за трансформирани данни

Трансформацията стабилизира дисперсията.

Проучване на X променлива: Условни парцели за женски размер

Не предполагаме, че променливата X е хомогенна, но е добре да се изследват данните, като се използват и условни полета.

Нетрансформирани данни за размера

Данните са силно изкривени, което ще създаде влиятелни точки от данни поради високия ливъридж.

Трансформирани данни за размера

Изследване на данни 3: Нормалност

„При линейна регресия ние всъщност приемаме нормалност на всички повторени наблюдения при определена ковриатна стойност ... Нормалността на необработените данни обаче предполага нормалност на остатъците“ (Zuur et al 2010)

Предполагането за нормалност обикновено се справя най-добре след монтирането на модел. Можете обаче да започнете да получавате смисъл за това, като начертаете хистограми (И до известна степен boxplot) на данните, разделени по основни променливи за групиране („условни парцели“, използвайки номенклатурата на Zuur). Това кондициониране може да се извърши чрез използване на фасетиращата способност на ggplot.

Ако правите t-тест или ANOVA, тези хистограми на суровите данни, условни по групи, ще бъдат еквивалентни на графики на остатъците след монтиране на модела. За ANCOVA и множествена регресия обаче трябва действително да се побере моделът.

Обърнете внимание, че нормалността се прилага за променливата y. Никога обаче не пречи да се изследват и x променливите.

Вече знам, че е необходима трансформация на дневник, така че ще пропусна със суровите данни и просто ще разгледам стойностите на log10

Ще правя регресия и затова трябва да намеря модел. Имам обаче основни категориални променливи, които да разгледам, така че ще направя хистограма, за да видя как изглежда.

Дори след преобразуване на дневник данните не са супер нормални. По-нататъшното кондициониране върху биома обаче може да направи това по-добро; също така, както вече казах, трябва да впиша регресионния си модел и да разгледам остатъците, за да преценя наистина. Нещо повече, аз не се закачам за нормалността, освен ако нещата наистина са наистина изкривени.

Бих могъл да добавя биом индиректно, като направя комбинирана променлива, която „ще извикам група“

Това разкрива, че сухоземните месоядни животни са доста изкривени. С малко точки от данни обаче е трудно да се каже. Като цяло тези данни са толкова нормални, но вижте предупрежденията по-горе защо не съм най-малко загрижен на този етап.

Изследване на данни с разпръснати парцели

Разпръснатият график на предиктори спрямо променливите на отговора също е от ключово значение за проучването на данните, както и за окончателното представяне на данните

Разпръснат парцел от сурови данни

Вече знам, че преобразуването на регистрационните файлове е вероятно от ключово значение за работата с тези данни, но е интересно да разгледаме суровите данни. Можем да видим как крайно дясната точка от данни оказва влияние върху линията на регресия.

Разпръснат сюжет на трансформирани данни

Трансформацията на дневника се занимава с високи стойности на ливъридж (екстремни стойности на оста x поради големия размер на животните), привлича потенциални отклонения от оста y, подобрява нормалността и стабилизира вариацията в групите. Страхотно!

Остава един проблем. Тази диаграма на разсейване показва, че вариацията във всяка основна група изглежда се увеличава с увеличаване на размера. Това се случва дори в трансформираните в дневника данни. Това е основен проблем, който може да бъде разрешен само чрез използване на обобщени най-малки квадрати (GLS) и/или случайни ефекти. Вижте следната статия за повече подробности

Cleasby & Nakagawa. 2011. Пренебрегвани биологични модели в остатъците. Поведенческа екология и социобиология.

Други разпръснати сюжетни елементи

Добавете „килим“, за да ви помогне да визуализирате разпределението на данните.

Добавете средна точка и разпръснете графика елипса

Добавете точка за бивариаталната средна стойност на данните (съвместна средна стойност по двете оси). Обърнете внимание как пада върху линията на регресия.

Също така добавете „елипса на данни“

„Елипсата на данни обикновено се използва за добавяне на визуално обобщение към разпръснат график, показващ средните стойности, стандартните отклонения, корелацията и наклона на регресионната линия за две променливи.“ (Friendly et al 2013 Elliptical Insights: Разбиране на статистическите методи чрез елиптична геометрия)

Елипсата е съвместен 95% доверителен интервал и в двете измерения. Можете да изчислите средната стойност на променливата x и да изчислите доверителен интервал около, след това да изчислите средната стойност на променливата y и 95% CI. Елипсата по същество обединява тези две неща.

Изследване на данни 4: Излишни нули

Когато имате данни за броене, често използвате регресия на Поасон. Подобно на линейната регресия, регресията на Поасон прави предположения за разпределението на данните. Данните за броене с много нули нарушават тези предположения.

Изследване на данни: Колинеарност

Когато предикторските променливи са силно корелирани помежду си, това създава проблеми с оценката и извода за регресия.

Моят анализ се фокусира само върху женската маса като цифров предиктор. Оригиналният анализ разглежда редица други предиктори, но не обсъжда изрично въпросите на колинеарността.

Таблица на корелациите

Един от начините да получите усещане за колинеарност е да разгледате таблица на коефициентите на корелация за вашите прогнози. Ще включа и променливата реакция на мазнини.

Можете да получите p-стойност за вашите корелации, като използвате corr.test от психическия пакет

Имайте предвид, че променливите са перфектно корелирани помежду си, така че всички диагонални елементи са 1. Високите положителни или отрицателни стойности показват стойности, които са силно корелирани и които ще създадат проблеми, ако и двете са включени в регресията. Колинеарността обаче може да бъде фина, така че трябва да се използва пълна диагностика, използваща фактори на инфлация на дисперсията, след като моделът е годен.

Можем да получим визуално представяне на това с GGally: ggpairs, което ни дава матрица sactterplot, хистограми за всяка променлива и коефициентите на корелация.

GGally: ggpairs е доста бавен; старомодни двойки () е по-бърз.

Можете да добавите корелации и хистограми, ако добавите някои функции. Вижте помощния файл? Двойки за подробности.

За информация относно дисперсионните фактори на инфлация вижте: Graham 2003. Сблъскване с мултиколинеарността в екологичната множествена регресия. Екология.

За повече информация относно колинарството вижте: Freckleton. 2011. Справяне с колинеарността в поведенческите и екологичните данни: усредняване на модела и проблемите с грешката при измерване. Поведенческа екология и социобиология. https://link.springer.com/article/10.1007/s00265-010-1045-6

Изследване на данни 6: Връзка между y & x

Вече разгледахме разпръснат график на променливата x срещу y и разсейващата матрица.

Едно нещо, което не е подчертано, е, че ggscatter () нелинейни „изглаждачи“, използвайки add = „loess“. Това може да бъде полезно, за да се види дали има нелинейни връзки.

Изследване на данни 7: Трябва ли да обмислим взаимодействията?

Когато възникнат взаимодействия, връзките между две променливи зависят от трета. Например, разпръснатите парчета, кодирани по цвят и/или фасетирани, използвани по-горе, показват, че наклонът на мазнините спрямо размера на тялото е положителен за водните месоядни животни, но отрицателен за други групи.

Изследване на данни 8: Независими ли са наблюденията на променливата на отговора?

Когато данните се събират като част от времеви ред, повтарящи се измервания върху едно и също нещо или от съседни неподвижни точки в пространството, съществува потенциал за модели на автокорелация. Това не е приложимо за набора от данни за млякото за бозайници.

Данните имат проблеми с филогенетичната структура. Това би било най-добре да се реши с помощта на филогенетични регресивни методи; Нямам подръка на филогенията, така че ще използвам грубо ниво на групиране по ред, семейство и род, за да приблизим това.

Цифрови обобщения на данните

Може да бъде много полезно да се генерират обобщения на цифрови данни, които да помогнат на вас и читателите да разберете данните. Това не се подчертава от Zuur