Ерика Понци

1 Катедра по биостатистика, епидемиология, институт по биостатистика и превенция, Университет в Цюрих, Hirschengraben 84, 8001 Цюрих, Швейцария,

отчитане

2 Катедра по биостатистика, Център за епидемиология и биостатистика в Осло, Университет в Осло, Норвегия,

3 Катедра по епидемиология и биостатистика, Училище за обществено здраве, Imperial College London, Лондон, Великобритания,

Паоло Винейс

3 Катедра по епидемиология и биостатистика, Училище за обществено здраве, Imperial College London, Лондон, Великобритания,

4 Италиански институт за геномна медицина (IIGM), Торино, Италия,

Киан Фан Чунг

5 Национален институт за сърцето и белите дробове, Имперски колеж Лондон, Великобритания,

6 Royal Brompton and Harefield NHS Trust, Лондон, Великобритания,

Марта Блангиардо

3 Катедра по епидемиология и биостатистика, Училище за обществено здраве, Imperial College London, Лондон, Великобритания,

Свързани данни

Данните, залегнали в резултатите, представени в проучването, както и минималният набор от данни за възпроизвеждане на анализа на хартия, са достъпни при поискване от Международната агенция за изследване на рака (IARC) и тяхното използване и наличност се регулира от Експозомичното управление Съвет и Етичния комитет на IARC. Заинтересованите изследователи могат да поискат достъп до данните, като се свържат с Пиетро Ферари от IARC на [email protected] Констатациите от изследването могат да бъдат възпроизведени изцяло чрез получаване на данните и следване на протокола, докладван в раздела Методи, или скриптовете, предоставени като допълнителен материал. Потвърждаваме, че авторите не са имали специални привилегии за достъп до тези данни, които другите не биха имали.

Резюме

1. Въведение

Въздействието на замърсяването на въздуха върху здравето е основен въпрос за общественото здраве и през последните десетилетия се обръща все по-голямо внимание [1, 2, 3]. В този контекст надеждната оценка на рисковите фактори и връзките между експозицията на околната среда и здравословните условия изисква събирането на голямо количество данни за експозицията на относително голям брой субекти, което често е непрактично и е обект на няколко източника на грешки или неточност . Това може да доведе не само до наличие на пристрастия в оценката на параметрите, свързани с проучването, но и до неточни заключения при оценка на асоциациите между замърсители, риск от заболявания и биомаркери. Въпреки че наличието на грешка в измерванията в такива изследвания е обсъждано в най-новата литература и сега се признава като потенциален проблем [4, 5], то често не се отчита при стандартните анализи, както е посочено в [6, 7].

В настоящото проучване ние предлагаме да приложим техники за грешка при измерване, за да коригираме грешки в експозицията на околната среда, когато разглеждаме тяхната връзка с молекулярни данни с висока производителност. Това е особено предизвикателно поради високата размерност на данните, както и поради корелацията между омиците, взети от същия индивид. Използваме байесова рамка за справяне с проблема, която предоставя много гъвкав начин за отчитане на грешката при измерване и моделиране на различни видове грешки и структури на зависимост в данните. По-специално, байесовите йерархични модели изглеждат идеални в този контекст, тъй като те осигуряват ясен начин за включване на зависимост между експозициите, но също така и между различни променливи на реакцията. Освен това възможността за включване на предварителни знания за компонентите на грешките може да доведе до по-добри модели и по-точни оценки. Освен това възможността за моделиране на няколко фиксирани и случайни ефекти, както и различни функции на връзката, добавя гъвкавост и обща приложимост към методите.

В тази статия ние прилагаме този подход към проучването на Оксфорд Стрийт II, рандомизирано кросоувър проучване, при което се използват измервания на омици и замърсяване на въздуха, за да се изследва връзката между краткосрочното излагане на замърсяване на въздуха, свързано с трафика, и смущения на различни омични сигнали [16, 17]. Внедряваме коригирани с грешки модели в класическа рамка за грешки при измерване и обобщаваме такива модели, за да отчитаме зависимостите между замърсителите, както и сред променливите на omic за реакция. Това осигурява нов начин за справяне с омически данни с високи измерения, като ги включва в йерархична формулировка на Байес. Възможността за едновременно моделиране на повече омични сигнали също позволява да се отчете зависимостта между сигналите. Освен това включването на термин за грешка в измерването, който е ясен и гъвкав благодарение на йерархичната формулировка, досега не е предложено при наличието на биологични данни с висока производителност.

Внедряваме нашите модели, използвайки верига Монте Карло Марков (MCMC) в JAGS, но за да увеличим скоростта на изчислението, използваме и интегрирания подход за вградена апроксимация на Лаплас (INLA) [18], който наскоро се използва за внедряване на модели на грешки при измерване, например в [19] и [20].

Останалата част от тази статия е структурирана по следния начин: първо описваме изследването и модела за оценка на връзката между различните замърсители на въздуха и омичните измервания, като се фокусираме върху метаболитните пътища. След това статията илюстрира байесовския йерархичен модел, който формулираме за отчитане на грешка при измерване, като включва класическа грешка (вижте раздел 3 за дефиниция и теоретично разглеждане на класическата грешка при измерване). Ние разширяваме такъв модел до модел с много отговори, отчитащ структура на зависимост между различни омични сигнали, и до модел с много променливи, за да се отчете зависимостта между различните замърсители. След това показваме резултатите въз основа на данните от проучването на Оксфорд Стрийт II и накрая завършваме с няколко дискусионни точки и потенциално разширяване на предложения метод.

2 Метаболитни пътища в проучването Oxford Street II

2.1 Проучването

2.2 Моделът

Връзката между нивата на метаболитите и експозициите на TRAP беше оценена в смесен модел, използвайки байесов подход и включващ случайни ефекти за индивида, както и за местоположението и времевата точка на всяко измерване. Фиксирани ефекти са пол, възраст, ИТМ и здравна група (дефинирани като категорична променлива, като здрави, ХОББ и ИБС като нива), както и средни концентрации на замърсяване на въздуха една година преди експеримента, използвани като фонова или дългосрочна експозиция, и моментални измервания на експозицията, представляваща интерес. Четирите експозиции, докладвани по-горе (CBLK, NO2, PM25 и PM10), бяха разгледани отделно.

Моделът е формулиран по следния начин: