Институт по цитология и генетика на СО РАН, Новосибирск, Русия, Новосибирски държавен университет, Новосибирск, Русия

геномен

Институт за генетична епидемиология, Helmholtz Zentrum München - Немски изследователски център за здраве на околната среда, Neuherberg, Германия

Институт по генетична епидемиология, Helmholtz Zentrum München - Немски изследователски център за здраве на околната среда, Нойберберг, Германия, Институт по медицинска информатика, биометрия и епидемиология, Катедра по генетична епидемиология, Ludwig-Maximilians-Universität, Мюнхен, Германия

Партньорски изследователски отдел по молекулярна епидемиология, Helmholtz Zentrum München - Немски изследователски център за здраве на околната среда, Нойберберг, Германия

Отделение по епидемиология, Еразъм MC Ротердам, Холандия

Институт по цитология и генетика на СО РАН, Новосибирск, Русия, Новосибирски държавен университет, Новосибирск, Русия

Институт по цитология и генетика на Асоциацията SD RAS, Новосибирск, Русия, Новосибирски държавен университет, Новосибирск, Русия, Център за здравни науки за популацията, Университет в Единбург, Единбург, Великобритания

  • Яков А. Цепилов,
  • Янина С. Рид,
  • Константин Щраух,
  • Харалд Гралерт,
  • Корнелия М. ван Дуйн,
  • Татяна И. Аксенович,
  • Юрий С. Аулченко

Фигури

Резюме

Проучванията за асоцииране в целия геном (GWAS) включват мощен инструмент за картографиране на гени от сложни черти. Въпреки това може да настъпи инфлация на тестовата статистика поради субструктура на популацията или криптична свързаност, която може да причини фалшиви асоциации. Ако е налична информация за голям брой генетични маркери, е възможно коригиране на резултатите от анализа чрез използване на метода на геномния контрол (GC). GC първоначално беше предложено да коригира теста за тенденция за добавка Cochran-Armitage. За модели без добавка е показано, че корекцията зависи от честотите на алелите. Следователно, използването на GC е ограничено до ситуации, при които честотите на алели на нулеви маркери и маркери-кандидати са съпоставени.

В тази работа разширихме възможностите на метода GC за неадитивни модели, което ни позволява да използваме нулеви маркери с произволни честоти на алели за GC. Бяха получени аналитични изрази за инфлацията на тестова статистика, описваща нейната зависимост от честотата на алелите и няколко параметри на популацията за рецесивни, доминиращи и свръхдоминиращи модели на наследяване. Предложихме метод за оценка на тези необходими параметри на популацията. Освен това, ние предложихме GC метод, основан на апроксимация на корекционния коефициент с полином с честота на алела и описани процедури за коригиране на генотипния (две степени на свобода) тест за случаи, когато моделът на наследяване е неизвестен. Статистическите свойства на описаните методи бяха изследвани с помощта на симулирани и реални данни. Демонстрирахме, че всички разгледани методи са ефективни при контролиране на грешка от тип 1 в присъствието на генетична субструктура. Предложените GC методи могат да бъдат приложени към статистически тестове за GWAS с различни модели на наследяване. Всички методи, разработени и тествани в тази работа, бяха приложени с помощта на R език като част от пакета GenABEL.

Цитат: Цепилов YA, Ried JS, Strauch K, Grallert H, van Duijn CM, Axenovich TI, et al. (2013) Разработване и прилагане на методи за геномен контрол за проучвания на асоцииране с широк геном, използващи неадитивни модели. PLoS ONE 8 (12): e81431. https://doi.org/10.1371/journal.pone.0081431

Редактор: Лин Чен, Чикагският университет, Съединени американски щати

Получено: 30 юли 2013 г .; Прието: 12 октомври 2013 г .; Публикувано: 16 декември 2013 г.

Финансиране: Проучването KORA е инициирано и финансирано от Helmholtz Zentrum München, Немски изследователски център за здраве на околната среда, което се финансира от Федералното министерство на образованието и научните изследвания на Германия (BMBF) и от провинция Бавария. Изследването на KORA беше подкрепено от Мюнхенския център за здравни науки (MC-Health), Ludwig – Maximilians – Universität, като част от LMUinnovativ. Изследванията, водещи до тези резултати, са финансирани от безвъзмездна помощ от Асоциацията на Хелмхолц и RFBR (Руска фондация за фундаментални изследвания, грантове № 11-04-00098 и 12-04-91322) в контекста на съвместни изследвания на Хелмхолц и Русия Group, както и от Седмата рамкова програма на Европейския съюз (FP7-Health-F5-2012) по споразумение за безвъзмездна помощ № 305280 (MIMOmics).

Конкуриращи се интереси: Авторите са декларирали, че не съществуват конкуриращи се интереси.

Въведение

Проучванията за асоцииране в целия геном (GWAS) са мощен инструмент за картографиране на гени със сложни черти. Стандартните статистически методи, използвани за GWAS, като линейна регресия, предполагат, че корелацията между фенотип и генотипен маркер съществува поради самия маркер или силно неравновесие на връзката с локуса на причината. Това предположение е вярно, когато извадката се състои от представители на една панмиктична популация. Възможни са обаче други корелации, причинени от объркващи фактори, които влияят както върху фенотипите, така и върху генотипите на различни локуси. В GWAS генетичната субструктура на изследваните проби е сред най-важните смущаващи фактори. Ако анализът не е отчетен като объркващ от подструктурата на популацията, тестовата статистика е завишена [1], което затруднява нейната статистическа интерпретация и може да доведе до фалшиво положителни констатации.

Ако е налична информация за голям брой генетични маркери, резултатите от анализа могат да бъдат коригирани чрез отчитане на влиянието на неспецифични ефекти чрез използване на метода на геномния контрол (GC). Предложени са няколко метода за регулиране на GC [1] - [5]. Devlin и Roeder [1] предлагат използването на корекционен коефициент, обозначен като коефициент на дисперсионна инфлация (VIF), за да се коригира разпределението на тестовата статистика. Като цяло VIF е доказано, че е функция от честотата на маркерните алели и параметрите на популацията [1]. Изведено е също така, че за адитивния модел VIF не зависи от честотата на алелите. По този начин за адитивния модел константата на „GC фактор на надуване“, λ, може да бъде емпирично оценена от нулеви (несвързани) локуси. Имайте предвид обаче, че за по-малки честоти на алели и по-малки проби асимптотичните предположения няма да се запазят и следователно надуването на тестовата статистика ще зависи от честотите на алелите дори за адитивния модел.

Могат да се използват няколко оценки на константата на инфлация на Genomic Control λ. Например, средната статистика на теста е оценка на λ, която обаче страда от силно въздействие от извънредни стойности (например от истински сигнали за асоцииране). Средната оценка (λmedian), която се дефинира като съотношение на медианата на наблюдаваното разпределение на тестовата статистика и 0,455 (медианата на разпределението) [1], е вероятно използваната най-много. Друг оценител може да бъде дефиниран като регресионен коефициент на наблюдаваната статистика на теста върху статистиката, очаквана за нулевите локуси (регресионен оценител λregress). Тази оценка възниква от простото наблюдение, че ковариацията между две подредени случайни променливи, една от които се разпределя като, а друга като λ *, е равна на 2 * λ, докато дисперсията на очакваното разпределение е 2. Всички тези оценки са константи, които можем да използваме като показатели за статистическа пристрастност или като коефициенти, позволяващи корекция на наблюдаваната статистика на теста.

Общата формулировка на VIF [2], по принцип позволява разширяване на GC до доминиращи и рецесивни модели. Въпреки това, за неадитивния модел, VIF зависи от честотата на алелите и редица параметри, които описват генетичната структура на пробата. По този начин е възможно да се оцени VIF емпирично (както при адитивния модел), ако честотата на алелите на нулевите локуси е същата като на тестовия локус (специфичен VIF за всяка група алели), но в този случай броят на наличните нулеви маркери е ограничена и по този начин ограничава приложимостта на метода GC. Алтернативен начин изисква оценка на параметрите на структурата на популацията. Методите, които правят извод за структурата на популацията и приписват индивиди на популации [6], са изчислително обширни.

Друг метод за емпирична оценка на VIF е предложен от Zheng et al. [3] за. Модел с две степени на свобода (2df), който не ограничава връзката между фенотипите и генотиповете и не налага сериозни ограничения върху теглото на хетерозиготния генотип. Този „надежден GC” метод се основава на комбиниране на коригираната тестова статистика от доминиращи и рецесивни модели [3]. Още един метод за корекция - делта децентрализация (базиран на централизация на нецентралния хи-квадрат) - беше предложен от Gorroochurn et al [7], но по-късно бе обезсилен от Dadd et. ал. [8].

В тази работа имахме за цел да разработим и оценим съществуващите методи за GC корекция на резултатите от GWAS, използвайки неадитивни (рецесивни, доминиращи, свръхдоминиращи и 2df генотипични) модели. Следователно ние се концентрираме върху няколко точки: формулиране на VIF изрази за различни модели с една степен на свобода (1df) и разработване на базирани на VIF процедури за GC корекция на резултатите от тези модели; оценка на параметрите на модела, описващи подструктурата на популацията за оценка на VIF; разработване на нов метод на „полином” GC (PGC), базиран на полиномиална апроксимация на корекционния коефициент, който може да се приложи както за тестове с една, така и с две степени. Всички методи бяха тествани с помощта на симулирани и реални данни.

Резултати

VIF за модели без добавка

Изведохме VIF като функция на честотата на алела (p), модел на наследяване (x показва ефекта на хетерозиготния генотип; за рецесивен, адитивен и доминиращ модел x е равен на 0, 0,5 и 1, съответно), проба размер (N) и параметри на популацията. Свръхдоминиращият модел (ефектът на генотипа е равен на 0 за хомозиготи и на 1 за хетерозиготи) е описан отделно. Параметрите на популацията включват коефициента на Райт за инбридинг F (вариращ от 0 до 1) [9] и коефициент, който описва подструктурата на популацията, (), където и са броя на представителите на всяка от субпопулациите съответно в случай и контролни проби. В действителност, средната инбридинг F приема стойности от 2 се доближава до нула, когато дизайнът е балансиран (например случай: контролно съотношение е 1∶1 във всяка субпопулация) и се доближава до максимума си от 1/2, когато се вземат проби от случаите или контролите всяка субпопулация.

VIF се получава като, където Gi е маркерният генотип на i-тия случай (Gi∈). и се определя като: и съответно. Деривациите и подробните формули за VIF са дадени в допълнителната бележка S1.

Фигура 1 представя функцията VIF за набор от параметри на популацията (F = 0,05; N = 1 000; K = 11 000). Тази фигура показва, че VIF е независим от честотата на алела само за адитивния модел (x = ½), който е демонстриран по-рано [2]. Функцията е симетрична на точка при x = ½ - рецесивният модел е огледален образ на доминанта. Също така за х, който се стреми към безкрайност, той се приближава - както се очаква - функцията за свръхдоминиращия модел на наследяване.