Самуел Сунгван Чо

1 Интердисциплинарна програма по биоинформатика, Национален университет в Сеул, ул. Kwan-ak 599, Kwan-ak Gu, Сеул, Корея

Йонканг Ким

2 Департамент по статистика, Национален университет в Сеул, ул. Kwan-ak 599, Kwan-ak Gu, Сеул, Корея

Джун Юн

1 Интердисциплинарна програма по биоинформатика, Национален университет в Сеул, ул. Kwan-ak 599, Kwan-ak Gu, Сеул, Корея

Minseok Seo

1 Интердисциплинарна програма по биоинформатика, Национален университет в Сеул, ул. Kwan-ak 599, Kwan-ak Gu, Сеул, Корея

Су-кюнг Шин

3 Център за изследване на храните и хранителната геномика, Департамент по хранителни науки и хранене, Национален университет Kyungpook, Daegu, Корея

Ън-Йънг Куон

3 Център за изследване на храните и хранителната геномика, Департамент по хранителни науки и хранене, Национален университет Kyungpook, Daegu, Корея

Сун-Ън Ким

4 Департамент по храните и храненето, Sookmyung Women’s University, Сеул, Корея

Юн-Юнг Бае

5 Отдел по наука за храните и кулинарни изкуства, Университет Шинхан, Кьонги, Корея

Seungyeoun Lee

6 Департамент по математика и статистика, Университет Sejong, Сеул, Корея

Ми-Кюнг Сун

4 Департамент по храните и храненето, Sookmyung Women’s University, Сеул, Корея

Myung-Sook Choi

3 Център за изследване на храните и хранителната геномика, Департамент по хранителни науки и хранене, Национален университет Kyungpook, Daegu, Корея

Парк Taesung

1 Интердисциплинарна програма по биоинформатика, Национален университет в Сеул, ул. Kwan-ak 599, Kwan-ak Gu, Сеул, Корея

2 Департамент по статистика, Национален университет в Сеул, ул. Kwan-ak 599, Kwan-ak Gu, Сеул, Корея

Замислил и проектирал експериментите: MC TP. Изпълнени експерименти: SS EK YB MS. Анализирани данни: SC YK JY MS SK. Реактиви/материали/инструменти за анализ, допринесени: SS EK YB MS. Написа хартията: SC YK MS JY SL TP. Тълкува данните и преработва ръкописа за важно интелектуално съдържание: SK.

Свързани данни

Всички релевантни данни се намират в хартията и нейните поддържащи информационни файлове.

Резюме

Заден план

Развитието на новите технологии повлия значително в областта на биологичните изследвания. По-конкретно, появата на технологията с микрочипове осигурява решаващ поврат в биологичните изследвания [1,2,3,4]. Технологията Microarray често се използва за едновременно идентифициране на моделите на генна експресия в клетки за хиляди гени. В допълнение, чувствителността и специфичността на технологията на микрочиповете продължава да се подобрява и микрочиповете се превръщат в по-икономичен изследователски инструмент [5]. Важно нововъзникващо медицинско приложение за технологията на микрочиповете е подкрепата за клинични решения за диагностициране на заболяване, както и прогнозирането на клинични резултати в отговор на лечение [6].

Напоследък подобренията в технологията с микрочипове ръководят развитието на различни платформи. Много изследвания са се опитали да интегрират няколко платформи; например, проектът за контрол на качеството MicroArray (MAQC) осигурява нива на генна експресия, които се измерват от седем различни платформи. Проучването на MAQC предостави ресурс, представляващ важна първа стъпка към създаването на рамка за използването на микрочипове в клинични и регулаторни условия [7]. В допълнение, технологията с микрочипове е успешно комерсиализирана и в резултат на това са генерирани значително количество данни от микрочипове. Няколко проучвания са извършили интеграционен анализ на данни от микрочипове. Мета-анализът е мощен за обединяване на резултатите от различни изследвания на генната експресия (например рак на гърдата [8]). Статистическите модели като вариационен анализ са ефективни при интеграционния анализ за идентифициране на гени, които имат различни профили на генна експресия в присъствието на много контролиращи променливи [9].

Като цяло основната цел на анализа на данните от микрочипове е да се идентифицират диференцирано експресирани гени (DEG). Технологията Microarray ни позволява да получаваме данни за експресията на целевите гени по-лесно от другите технологии. DEG са станали по-лесни за откриване от микрочиповата технология от всякога. Когато се прилагат към експериментални данни, причинните гени, свързани със заболявания, могат да бъдат получени чрез откриване на DEG. През последното десетилетие бяха предложени множество статистически методи като t-тестове, анализ на значимостта на микрочипове (SAM) [10], регресионно моделиране, смесено моделиране [11] и тестове за локална обединена грешка (LPE) [12].

От тези подходи t-тестът е най-популярният статистически тест за сравняване на средните стойности между две групи. T-тестът е параметричен метод, който изисква допускане за нормалност. Данните от микрочипове обаче рядко удовлетворяват нормалното предположение за разпределение. Следователно, пермутационен тест, който не изисква такива предположения, се използва за предпочитане за откриване на DEG [13,14]. SAM [10] използва t-тип статистика, използваща фактор за измама, за да стабилизира дисперсията и контролира степента на фалшиво откриване (FDR) [15]. SAM е също непараметричен анализ, който не изисква нормално разпределено предположение.

Прилагането на технологията с микрочипове също доведе до различни изследвания, които надхвърлят идентифицирането на DEG, като проучване, изследващо връзката между фенотипа и данните за експресията. В експерименти с микрочипове са използвани различни фенотипове; например времето за оцеляване се използва като фенотип за анализ на рецидивите на рака в клинични проучвания [16,17]. Идентифицирани са няколко гена, свързани с времето на оцеляване. Микросателитната нестабилност (MSI) е използвана като фенотип в изследване с микрочипове на колоректален рак. Тъй като фенотипът на CpG островния метилатор (CIMP) е свързан с мутации на MSI и BRAF при колоректален рак [18], MSI играе важна роля в изследванията на колоректалния рак. В допълнение, туморният подтип също може да бъде важен фенотип. Например, естрогенният рецептор (ER), прогестероновият рецептор (PR) и HER2 съвместно определят подтиповете на рака на гърдата. Най-често се използва тройно-отрицателният фенотип (ER-отрицателен, PR-отрицателен и HER2-отрицателен) [19].

Фенотип-асоциираните гени (PAGs) са гените, които са свързани с фенотип от интерес. PAG могат да бъдат идентифицирани чрез регресионни анализи, като линеен регресионен анализ за непрекъснати фенотипове и регресионен модел на Кокс за фенотипове във времето на оцеляване [20]. Когато фенотипът е двоична променлива, представляваща две групи, идентификацията на PAGs става еквивалентна на идентификация на DEGs.

В тази статия ние се фокусираме върху съвместната идентификация на DEG и PAG при анализи на данни от микрочипове. Нашето проучване беше мотивирано от необходимостта от анализ на експеримент с микрочипове, състоящ се от групи с високо съдържание на мазнини (HFD) и нормална диета (ND). Десет мишки бяха разпределени във всяка група за експеримента с микрочипове. Освен това в кръвни проби бяха измерени четири фенотипа, отразяващи нивата на експресия на лептин, адипонектин, инсулиноподобен растежен фактор 1 (IGF-1) и инсулин. Лептинът е секретиран от адипоцити хормон с ключова роля в енергийната хомеостаза [21]. IGF-1 е подобен по молекулярна структура на инсулина и е важен хормон за растежа в детска възраст. Адипонектинът контролира нивата на глюкозата, както и разграждането на мастните киселини, а инсулинът е един от най-важните хормони в метаболитната система на бозайниците. Експериментът с микрочипове се фокусира върху промени в генната експресия, свързани с контрола на хранителните мазнини, и определянето на влиятелни гени, свързани с фенотипите, свързани със затлъстяването. По този начин трябва да идентифицираме DEG за HFD и ND групи, които също са PAG за четирите фенотипа, свързани със затлъстяването.

Въпреки че са предложени много подходи за разделно идентифициране на DEG и PAGs, са налични само няколко подхода за съвместна идентификация на DEG и PAG. Първият подход, който използвахме за съвместна идентификация на DEG и PAG, беше наивен подход, който открива DEG и PAGs отделно и след това идентифицира пресичащите се гени от списъците на PAG и DEG. Вторият подход е йерархичен подход [22], който първо открива DEG и след това избира PAG сред DEG или обратно. И двата подхода са двустепенни анализи, които изискват отделно тестване на DEG и PAG, което затруднява контрола на фалшиво положителните грешки.

Ние предлагаме нов подход, базиран на модела, за едновременно идентифициране на DEG и PAG. Нашият подход, основан на модел, използва модел на линейна регресия. Използваме модела на линейна регресия, тъй като той е лесен за използване, гъвкав при работа с отделни ковариати и лесна разширяемост (т.е. удължаване до тест за пермутация може да бъде направено без използване на предположението за нормалност). Нашият метод е едноетапен анализ, който отнема по-малко изчислително време, улеснява контролирането на фалшиво положителни грешки и има по-голяма сила от наивните или йерархични подходи. Чрез анализ на данни от експеримент с микрочипове, проведен при мишки и от симулационни проучвания, ние сравняваме нашия модел базиран подход с наивни и йерархични подходи.

Метод

Декларация за етика

Всички експериментални процедури с животни бяха прегледани и одобрени от институционалния комитет по грижа и употреба на животните към Университета за жени Sookmyung (SMU-IACUC-2011-0401-005).

Данните от микрочипове се състоят от данни, получени от HFD и ND групи мишки за определяне на влиятелни гени, свързани със затлъстяването. Четириседмични мъжки мишки C57BL/6J са закупени от SLC Japan (Hamamatsu, Tokyo, Japan). Мишките бяха настанени в пластмасови клетки (три до четири мишки на клетка) при постоянна температура (23 ± 2 ° C) и влажност (50 ± 10%) с 12-часов цикъл светлина/тъмнина. Животните се оставят да се аклиматизират в лабораторната среда за 1 седмица преди началото на експеримента. Съставът на експерименталната диета се основава на AIN-93G. Източниците на мазнини в нормалната диета (ND, 15% от мастните калории) и диетата с високо съдържание на мазнини (HFD, 45% от мастните калории) се основават на царевично масло и свинска мас. Препратката, която използвахме за такова определение на процента мазнини, може да се види в „Диетата с високо съдържание на мазнини уврежда неврогенезата: Участие на липидната пероксидация и невротрофичен фактор, получен от мозъка“ [23]. На всеки 2 се осигуряваше прясна диета

3 дни и мишките имаха свободен достъп до вода и храна през всички експерименти. Животните се държат в продължение на 8 седмици и се убиват чрез вдишване на CO2 на възраст от 13 седмици. При аутопсия бяха взети проби от кръв и тъкани; серумните проби се приготвят чрез центрофугиране на проби от цяла кръв при 650 × g в продължение на 20 минути и се съхраняват при -80 ° С до анализ; тъканите на дебелото черво се отстраняват бързо, незабавно се замразяват в течен азот и се съхраняват при -80 ° C до анализ на микрочипове.

Illumina MouseRef-8 v1.1 Expression BeadChip беше използван в нашия експеримент с микрочипове. Наблюдавахме промени в модела на генна експресия поради HFD-индуцирано затлъстяване. Присвоихме 10 мишки на всяка ND група и HFD група. След това три мишки от групата ND и шест мишки от групата HFD бяха избрани чрез QC за експеримента с микрочипове и всяка проба имаше 45281 сонди.

Четири фенотипа, свързани с регулиране на метаболизма, бяха извлечени чрез използване на нива на експресия в кръвната проба, включително лептин, адипонектин, инсулиноподобен растежен фактор 1 (IGF-1) и инсулин. Концентрацията на серумен инсулин се измерва с комплект ELISA (Linco Research, St Louis, MO, USA), съгласно инструкциите на производителя. Серумните концентрации на IGF-1, лептин (R&D Минеаполис, MN, САЩ) и адипонектин (Biovendor, Бърно, Чехия) също бяха измерени с комплект ELISA, в съответствие с инструкциите на производителя. IGF-1 е подобен по молекулярна структура на инсулина и е важен хормон за растежа в детска възраст. Адипонектинът контролира нивата на глюкозата, както и разграждането на мастните киселини, а инсулинът е един от най-важните хормони в метаболитната система на бозайниците. Стойностите на израза се трансформират в дневник. След лог трансформация, QQ графиките и тестовете за пригодност за нормално разпределение не предоставиха доказателства, че данните не следват нормалното разпределение. Предоставихме Фигура А в S1 Файл, която показва р-стойности, получени от тестовете на Шапиро Уилкс, извършени към всяка генна експресия, и също така показа някои QQ графики за гени, които са значими от моделния подход на Фигура Б във Файл S1.

Откриване на DEG

Първо, открихме DEG, като използвахме t-тест с две проби. На второ място, използвахме анализ на значимостта на микрочипове (SAM) [10] за идентифициране на DEG. SAM използва t- статистиката, модифицирана чрез добавяне на фактор за измама (s0) към общата статистика като един от методите за наказание. Променливата si е изчислената стандартна грешка от ген i, а s0 се изчислява като процентил въз основа на α. След това се използва следната статистика на теста:

В допълнение, методът SAM използва алгоритъм за пермутация, за да контролира скоростта на фалшивото откриване (FDR) [15]. Следователно, ние можем да контролираме FDR по-лесно с този тест, отколкото за другите тестове като t-теста.

Откриване на PAG

Линейният регресионен анализ се използва за определяне на PAG. В нашите данни от микрочипове има две групи за лечение: ND и HFD. Информацията за групата се обозначава с Group. Expressioni показва стойността на експресията за всеки ген. Както бе споменато по-рано, фенотиповете от интерес се състоят от лептин, адипонектин, IGF-1 и експресия на инсулин. Линейният регресионен анализ се извършва за всеки фенотип. Прилагат се два модела на линейна регресия за идентифициране на линейната връзка между гените и фенотиповете.

където i (= 1,2, ..., p) представлява гена. Информацията за групата се обозначава с Group. Expressioni показва стойността на експресията за всеки ген. Първият модел M1 е да идентифицира ефекта на експресията върху фенотипа, докато вторият модел M2 е продължение на M1 с допълнителен групов ковариатор.

Значимостта на линейната връзка между гена и фенотипа може да бъде повлияна от груповия ефект, тъй като някои гени може да нямат пределни ефекти върху фенотипа, но могат да имат условни ефекти предвид информацията за групата. M1 се използва за откриване на пределен ефект, докато M2 се използва за откриване на условни ефекти. PAG могат да зависят от груповия ефект. Например, генът v1rh4 е не-PAG от модел M1. Въпреки това, той се идентифицира като PAG от модел M2 (Фигура 1). Модел M2 е по-подходящ модел от M1, когато съществува групов ефект. Моделът M1 обаче предоставя PAG, които не зависят от груповия ефект, което предполага, че трябва да бъдат монтирани както M1, така и M2. Следователно, ние използваме модели M1 и M2 едновременно, за да идентифицираме PAG.

моделирано

Моделът, без да се отчита групов ефект, не може да открие значителна корелация между лептин и ген V1rh4. Оста y представлява нивото на лептин, а оста x - нивото на изразяване на V1rh4. Синята линия е регресионна линия за HFD, докато червената линия за ND. Черната плътна линия е регресионната линия, използваща цялата проба. Ако обаче разгледаме груповия ефект, можем да идентифицираме значителна връзка между фенотипа и генната експресия.

В модел M1 експресионният ефект β1 е от най-голям интерес. В модел M2, β1 все още е от най-голям интерес, въпреки че груповият ефект β2 е добавен, за да обясни ефекта на диетата с високо съдържание на мазнини между ND групата и HFD групата. PAG могат да бъдат идентифицирани чрез тестване на следните хипотези: