Субекти

Резюме

Благодарение на многото химически и хранителни компоненти, които носи, диетата влияе критично на човешкото здраве. Наличните понастоящем изчерпателни бази данни за състава на храните покриват само малка част от общия брой химикали, присъстващи в храната ни, като се фокусират върху хранителните компоненти, които са от съществено значение за нашето здраве. Всъщност хиляди други молекули, много от които имат добре документирани последици за здравето, остават непроследени. За да изследваме наличните знания за състава на храните, ние изградихме FoodMine, алгоритъм, който използва обработка на естествен език, за да идентифицира документи от PubMed, които потенциално докладват за химичния състав на чесъна и какаото. След като извличаме от всеки документ информация за отчетените количества химикали, установяваме, че научната литература съдържа обширна информация за подробните химични компоненти на храните, която в момента не е интегрирана в базите данни. И накрая, ние използваме машинно обучение без надзор, за да създадем химически вграждания, установявайки, че химикалите, идентифицирани от FoodMine, имат пряко значение за здравето, отразявайки фокуса на научната общност върху свързаните със здравето химикали в нашата храна.

Въведение

Липсата на централизирана информация за химичния състав на храните не е равна на липсата на научен или търговски интерес към тези химикали: изключително количество изследвания се фокусират върху идентифицирането и количественото определяне на присъствието на определени химикали в различни храни, както и върху здравните последици и биохимичните роли на специфични хранителни химикали. Проблемът е, че данните за химичния състав на храните са разпръснати в многобройните научни литератури, обхващащи различни научни общности, от земеделие до изследвания на храните и от здравни науки до биохимия. Въпреки че сме свидетели на забележителни усилия за частично добиване на тази обширна литература и каталогизиране на разпръснатите данни в бази данни, като фокуса на Phenol Explorer върху полифенолите или определянето на приоритетите на eBASIS в проучванията за човешка намеса 6,12,13, липсват усилия да постигнем това при пълното предлагане на храни химикали.

Липсата на систематични усилия за картографиране на съществуващата информация за храната ни накара да попитаме колко информация наистина е налична за състава на храната. Разработихме FoodMine, пилотен проект, предназначен за системно извличане на научна литература за идентифициране и събиране на всички данни за химичния състав за конкретни съставки. Следователно ние демонстрираме възможностите, предлагани от FoodMine, като се фокусираме върху чесъна и какаото, храни с добре документирани ефекти върху здравето, което предполага съществуването на значителна, но разпръсната литература, съдържаща информация за химичното им съдържание 14,15. Събраните тук знания служат като пилот към бъдещи всеобхватни системни усилия, насочени към идентифициране и организиране на наличната информация за химичния състав на всички храни в цялата научна литература.

Резултати

съдържанието

Преглед на процеса на събиране на данни. Започвайки от PubMed, ние извлекохме списък със заглавия на хартия и резюмета, използвайки API Pubmed Entrez, и след това приложихме съвпадение на текст, за да филтрираме автоматично резултатите от търсенето, получавайки подгрупа от документи, които след това бяха прочетени и ръчно оценени. Ако документите съдържат информация за химичното съдържание на какао или чесън, ние ръчно извличаме съответната информация. Накрая преобразувахме стойности в сравними единици. Лентата „Output“ показва резултата от всяка стъпка за чесън и какао.

Интегрирахме съставните записи в единични сложни записи и ръчно разделихме количествено записаните записи в съответния им състав на базата на класификации на FooDB, както е показано на допълнителна фигура S2. Откриваме, че „Карбоксилни киселини и производни“ съдържа най-изследваните съединения както за чесън, така и за какао, а класът „Флавоноиди“ е в челната тройка и за двете съставки. Съединенията от тези два класа са често срещани в храната на растителна основа, поради което се очаква да присъстват в чесъна и какаото. Също така разкрихме доклади, отнасящи се до различни метални класове, „токсини“ и „пестициди“. Много съединения от класа на пестицидите идват от статия, фокусирана върху остатъците от пестициди в какаовите продукти от местните пазари в Югозападна Нигерия 21. Въпреки локалния си фокус, изследваните съединения могат пряко да повлияят на здравните резултати в световен мащаб, тъй като Нигерия е третият по големина износител на какао в света 22 .

Базите данни FooDB и USDA ни позволиха да проверим дали информацията, възстановена от литературата, съвпада или контрастира на съществуващите знания за състава на тези храни (вж. Раздел 2 на допълнителния материал за подробно описание на методологията за сравнение). За да увеличим максимално обхвата на този анализ, обединихме различни вариации на чесън и какао в базата данни на USDA и FooDB, като обединяването на „Чесън“ и „Чеснот с меко гърло“ в FooDB при сравняване на информацията с FoodMine. В USDA всички отчетени съединения са количествено определени, докато FooDB изброява както количествено, така и количествено определени съединения. Ние разглеждаме съединение, определено количествено, ако се отчита поне едно абсолютно измерване за избраните храни. Взети заедно, установяваме, че FoodMine възстановява по-уникални съединения от каталогизираните от USDA (Фиг. 2A, B) и повече количествени съединения от каталогизираните от FooDB. Докато само 7–9% от съединенията са количествено определени в FooDB и USDA за чесън и какао, чрез FoodMine сме събрали количествена информация за 70% от чесънните съединения и 66% от какаовите съединения (вж. Допълнителен материал, раздел 3). За какаото и чесъна FooDB и USDA съдържат повече количествени съединения, отколкото количествено. Ние обаче откриваме това

70% от информацията, докладвана в литературата, е количествено определена, което показва, че литературата съдържа обширна информация, която понастоящем не е записана в бази данни (вж. Допълнителен материал, раздел 3). Освен това 96 количествено определени съединения чесън и 283 количествено определени какаови съединения са нови, което означава, че преди това те не са били свързани с двете съставки в USDA или FooDB. В обобщение, 48% и 72% от количествено определените съединения са нови както в чесъна, така и в какаото, следователно средното увеличение на количествените измервания, предлагани от FoodMine, надвишава 137% (вж. Допълнителен материал, раздел 3). Тези открития предполагат, че систематичното извличане на информацията, разпространена в научната литература, може значително да подобри сегашните ни познания за състава на храните.

Брой уникални съединения, възстановени от FoodMine, USDA и FooDB. Графиките показват броя на уникалните съединения, докладвани от USDA, FooDB и FoodMine. Колоните показват (1) общия брой на уникалните количествено определени съединения във всяка база данни, (2) общия брой на уникалните количествено неопределени съединения във всяка база данни и (3) броят на количествените съединения, извлечени от FoodMine и никога не докладвани преди това в USDA или FooDB.

Известно е, че най-често съобщаваните съединения (фиг. 3) в FoodMine играят важна роля за ефектите върху здравето и вкуса. Например, известно е, че диалил дисулфидът допринася за мириса и вкуса на чесъна. По-важното е, че той е замесен в здравните ефекти на чесъна, по-специално алергията към чесън 23,24. И все пак нито USDA, нито FooDB предлагат количествена информация за съединението. Това не е единичен случай, тъй като на фиг. 3 се вижда, че в FooDB и USDA липсва информация и за други често изследвани съединения. Необходимостта от системна характеристика на хранителния профил на голям брой хранителни продукти, както прави USDA, пропуска информация за онези съединения, които са специфични за няколко отделни храни, въпреки потенциалната роля, която те играят в здравето. Всъщност три от десетте най-големи съединения за какао не са количествено определени в FooDB и едно не е в списъка, докато за чесън пет от първите десет съединения не са количествено определени.

Най-често срещаните съединения в FoodMine. Графиките показват 10-те най-често срещани съединения по отношение на броя на възстановените хартии за (A) чесън и (Б.) какао, измервайки изследователския интерес към всеки продукт. Оста y показва името на съединението, а оста x показва броя на документите, които съдържат записи за даденото съединение.

За да разберем точността на събраните количествени данни, сравнихме измерванията на съединението FoodMine със съответстващите им стойности в USDA, златният стандарт за надеждност на измерванията сред националните бази данни за състава на храните. Като се има предвид ограниченият хранителен панел, докладван от USDA, успяхме да сравним само 11% от химическите съединения, които намерихме за чесън, и 5% за какаото. Възстановената информация обхваща пълен спектър от молекули, смесвайки съединения както с малки, така и с големи относителни количества (фиг. 4). Като цяло намираме добро съгласие между стойностите, възстановени от FoodMine и отчетените от USDA стойности (вж. Раздел 3 за допълнителни материали за статистика). Чесънът има логаритмична R-квадратична стойност от 0,82, което показва забележителна корелация между известните количества и записите на FoodMine, докато какаото достига само 0,56. По-ниската корелация за какаото се дължи на група аминокиселини, докладвани от документи, които изследват съдържанието на печено какао, стъпка на обработка, която променя количествата на много химикали, което потенциално обяснява разликата от измерванията на USDA 18,19. Ако премахнем данните, свързани с печено какао, логаритмичният R-квадрат се увеличава до 0,75.

Сравнения на измерванията между FoodMine и USDA. Концентрациите на хранителни вещества, отчетени от USDA (x-ос), нанесени спрямо стойностите на съдържанието на съответстващи съединения в FoodMine (y-ос). Пунктираната линия представлява диагонала. Изключихме три и две съединения за (A) чесън и (Б.) какао, съответно, тъй като USDA отчита нулеви стойности за тези съединения.

Намаляване на размерността на TSNE на химически вграждания със здравни асоциации. TSNE парцели от химически вграждания Mol2Vec за чесън (A-° С) и какао (д-F). Цветовете на всяка точка от данни кодират броя на последиците за здравето, свързани със съединенията, базирани на CTD базата данни. Тъмно сивото представлява химикали с 0 здравни асоциации. Показваме химикали, каталогизирани от всяка изследвана база данни за FoodMine (A,д), USDA (Б.,Е.) и FooDB (° С,F). Маркерите се попълват, ако базата данни съдържа химикала, и празни, ако не съдържат.

Дискусия

Нашите познания относно повече от 26 000 химикали, които се очаква да присъстват в храните, както се съобщават в различни бази данни, са крайно непълни. Това недовършване вдъхнови усилията ни да изследваме колко допълнителни некатеголизирани знания са разпръснати в научната литература. Невидимостта на тези съединения за експериментални, клинични, епидемиологични и демографски проучвания - виртуалната „тъмна материя“ на хранителните вещества - представлява основна пречка за систематично разбиране за това как диетата влияе на нашето здраве. Въведеният пилот FoodMine систематично сканира научната литература, идентифицирайки информация за голям брой нови, количествено определени съединения, докладвани от отделни статии. Откриваме, че събраната информация значително разширява нашето разбиране за състава на храната. Освен това много от възстановените съединения имат пряко значение за здравето и храненето. Например сулфидите, количествено определени от FoodMine, са отговорни за уникалните здравни ефекти на чесъна, но в момента не са количествено определени в USDA или FooDB.

Чесънът и какаото са само две от над хилядата естествени храни, които обикновено се консумират от хората, поради което нашето изследване подкрепя хипотезата, че в литературата има изобилие от информация за състава и на други съставки. Всъщност условията за търсене, които използвахме в FoodMine за извличане на хартии от PubMed, бяха тесни и изборът на статии, които ръчно оценихме, е малък в сравнение с общия набор от потенциални знания, налични в литературата. Следователно, вероятно има допълнителна информация за чесън и какао, които все още не са уловени от FoodMine. Други термини за търсене, фокусиращи се върху класове съединения, а не върху храни, биха могли да разкрият допълнителна информация за химичния състав на тези съставки, знания, които могат да бъдат обобщени и за други съставки. Например, насочвайки се към „NEPP“, т.е. неизвличаеми полифеноли, FoodMine може по принцип да събира и обезличава наличната литература, която отчита съдържанието на храни в този клас химични съединения, често пренебрегвани от базите данни с храни, въпреки нарастващия интерес към тяхното взаимодействие с микробиома на човешките черва 27,28,29 .

Усилията ни за чесън и какао доказаха съществуването на значителна, но разпръсната литература, отнасяща се до техния химичен състав, предлагаща последователна печалба от информация за състава в сравнение с наличната в момента в базата данни с храни. С нашия пилот се съсредоточихме върху химическа информация, която е измерена от учените, но на практика е загубена за обществеността, поради липсата на съхранение и многозначност в достъпните бази данни. Всъщност, въпреки сложността, характеризираща хранителната тъмна материя, консумацията на храна все още е далеч от усилията на геномни и протеомични изследвания в изграждането на биобанки и консорциуми, куриране и съхранение на химичните съединения, идентифицирани в храната. Документирането на известното в момента за състава на храната е необходима стъпка към по-нататъшни експериментални усилия. В тази перспектива продукцията на FoodMine представлява ценна отправна точка за създаването на стандарти, необходими за целенасочена метаболомика, като помага за идентифицирането и количественото определяне на променливостта на тези химични съединения в храните 30,31 .

Следващата ни цел е да разширим събирането на данни до множество основни съставки. Ние даваме приоритет на търсенето си според статистическите данни за потреблението и производството, налични в национални и международни проучвания като NHANES 32 и FAOSTAT 33, с цел насочване към храни, които биха помогнали драстично да подобрят химическото покритие на нашата диета и да са от полза за здравните проучвания. Въпреки че все още е необходимо ръчно подреждане за извличане на подробности за измерване от документи, нашият алгоритъм за машинно обучение класира документите по ред на уместност, за да ускори събирането на данни. Като се има предвид хетерогенният научен език, използван за описване на храната, втората фаза на този пилотен проект е ключова за придобиване на допълнително обучение за данни, за да се научат нови езикови характеристики, като например появата на конкретни n-грама 34,35, за да се увеличи максимално приложимостта на алгоритъма за различни храни, без да губите точност.

Методи

Всички записи за едно уникално съединение бяха обединени в един запис чрез изчисляване на средната стойност на количествено определени стойности на записа. Тъй като различните документи използват различни вариации на името на съединението, ние приложихме схема за химическа дезамубитация, използвайки PubChem CID, за да добавим ключове към съединенията (вж. Допълнителен материал, раздел 2) 38. За всеки запис ние отчетохме средната стойност на съдържанието във всички точки от данни, стандартизирани в единици mg/100 g, и събрахме допълнителни статистически данни, като най-високото и най-ниското отчетено измерване на химичното вещество, дисперсията между измерванията и броя на измерванията. И накрая, използвахме PubChem CID, за да извлечем низово представяне на структурните свойства на молекулата (химическа SMILE), която използвахме като вход за Mol2Vec. След като научихме векторното представяне за всеки химикал, допълнително намалихме размерите, използвайки TSNE, за да получим картите, показани на фиг. 5 и допълнителна фиг. S5 39 .