Водна микробиология

Редактиран от
Рамиро Логарес

Instituto de Ciencias del Mar, Consejo Superior de Investigaciones Científicas (CSIC), Испания

Прегледан от
Нико Йехмич

Център за изследвания на околната среда Helmholtz (UFZ), Германия

Магнус Ø. Арнтцен

Норвежки университет за науки за живота, Норвегия

Принадлежностите на редактора и рецензенти са най-новите, предоставени в техните профили за проучване на Loop и може да не отразяват тяхното положение по време на прегледа.

граници

  • Изтеглете статия
    • Изтеглете PDF
    • ReadCube
    • EPUB
    • XML (NLM)
    • Допълнителни
      Материал
  • Цитат за износ
    • EndNote
    • Референтен мениджър
    • Прост ТЕКСТ файл
    • BibTex
СПОДЕЛИ НА

Оригинални изследвания СТАТИЯ

  • 1 Отдел по биологични и екологични науки, Факултет по естествени науки, Университет на Стърлинг, Стърлинг, Великобритания
  • 2 Катедра по протеомична и микробиология, Университет в Монс, Монс, Белгия
  • 3 Департамент по биологична океанография, Лайбниц институт за изследване на Балтийско море, Росток, Германия
  • 4 Sorbonne Universités, UPMC Université Paris 06, USR 3579, LBBM, Observatoire Océanologique, Banyuls-sur-Mer, Франция

Въведение

Метапротеомиката има за цел да характеризира общите протеини, получени от микробни общности (Wilmes and Bond, 2004) и, заедно с метагеномиката, да разкрие функционалната сложност на дадена екосистема (Franzosa et al., 2015). След първото метапротеомично проучване на околната среда, проведено в залива Чесапийк (Kan et al., 2005), бяха проведени множество проучвания в различни среди, използващи описателен, сравнителен и/или количествен подход (Matallana-Surget et al., 2018) . Сравнителната метапротеомика често се използва за описване на пространствени и сезонни промени във водните екосистеми, използвайки (i) на място (Morris et al., 2010; Teeling et al., 2012; Williams et al., 2012; Georges et al., 2014), (ii) мезокосмоси (Lacerda and Reardon, 2009; Bryson et al., 2016), или (iii) микрокосмоси (Russo et al., 2016).

Метапротеомиката на морските екосистеми е бързо разрастваща се област, която включва поредица от предизвикателни стъпки и критични решения в работния си процес (Wilmes et al., 2015; Heyer et al., 2017; Matallana-Surget et al., 2018; Saito et al., 2019). Морският метапротеомичен работен процес се състои главно от четири стъпки: (i) вземане на проби и екстракция на протеини, (ii) разделяне на протеини, (iii) масспектрометрия и (iv) идентифициране/анотиране на протеини (Wöhlbrand et al., 2013). До този момент все още липсват стандартизирани експериментални протоколи, което води до методологични несъответствия и пристрастия към интерпретацията на данните в метапротеомични изследвания (Leary et al., 2013; Tanca et al., 2013; Timmins-Schiffman et al., 2017).

Метапротеомичният анализ на данните включва също таксономична и функционална анотация. Поради проблема с извода за протеини (т.е. същият пептид може да бъде намерен в хомоложни протеини), в метапротеомиката често се срещат неточни белтъчни анотации (Herbst et al., 2016). За да се преодолее този проблем, инструментите за идентифициране на протеини като алгоритъм на Pro Group (Absciex, 2014), Prophane (Schneider et al., 2011) или MetaProteomeAnalyzer (Muth et al., 2015b) автоматично групират хомоложни протеинови последователности. В нашето проучване използвахме инструмента mPies (Werner et al., 2019), който използва подреждане, базирано на последователност, за изчисляване на таксономична консенсусна анотация върху белтъчни групи, използвайки последния общ предшественик (LCA) (Huson et al., 2016; Heyer et al ., 2017). mPies предоставя и нова консенсусна функционална анотация, използваща UniProt, която дава по-точна представа за разнообразието на протеиновите функции в сравнение с предишни стратегии за картографиране на протеини в по-широки функционални категории, като KEGG (Kanehisa et al., 2018) или COGs (Galperin et al. ., 2015).

До каква степен методологията засяга интерпретацията на метапротеома, вече е проучена в изкуствени микробни общности (Tanca et al., 2013) и чревни микробиоми (Tanca et al., 2016; Rechenberger et al., 2019), но нейното въздействие върху морските проби все още остава слабо документирана (Timmins-Schiffman et al., 2017). В това проучване използвахме силен експериментален дизайн, сравняващ комбинирания ефект от избора на DB за търсене на протеини и подхода за фракциониране на протеини върху същата проба от морска повърхност. За тази цел бяха търсени два набора пептидни спектри, получени от гел-базирани и без гел подходи спрямо четири DB, получени от едни и същи сурови метагеномни данни. Получените осем метапротеоми бяха количествено и качествено сравнени, демонстрирайки до каква степен диверсифицирането на метапротеомичния работен процес позволява най-изчерпателно разбиране на динамиката на микробните общности.

Материали и методи

Вземане на проби

Проби от морска вода (н = 4) са събрани през лятото (юни 2014 г.) на станция SOLA, разположена на 500 м от брега на Банюлс сюр Мер, в Северозападното Средиземно море (42 ° 49′N, 3 ° 15′W). Всяка проба се състои от 60 L морска повърхностна вода, предварително филтрирана на 5 μm и впоследствие филтрирана през 0,8 и 0,2 μm филтри с размер на порите (полиетерсулфонови мембранни филтри, PES, 142 mm, Millipore). Получени са четири независими комплекта филтри, които се замразяват в течен азот преди съхранение при -80 ° C.

Протеинова изолация за подходи на базата на гел и без гел

Подход на основата на гел протеомика

Протеинови изолати, разредени в буфер на Laemmli (2% SDS, 10% глицерол, 5% β-меркаптоетанол, 0,002% бромофенолно синьо и 0,125 M Tris – HCl, рН 6,8) и обработени с ултразвук на водна баня шест пъти за 1 минута при стайна температура . След 1 минутна инкубация при 90 ° С, протеиновите разтвори се центрофугират при 13 000 rpm при стайна температура в продължение на 15 минути. SDS-PAGE на протеиновите смеси се провежда, като се използват 4–20% сглобяеми мини-гелове от полиакриламид (Pierce). Протеиновите ленти се визуализират с оцветяване, като се използва Imperial Protein Stain (Thermo) съгласно инструкциите на производителя. Съответната гелна лента, съдържаща протеини, беше нарязана на 17 парчета по 1 mm всяка. Ензимното смилане се извършва чрез добавяне на 10 μl модифициран секвенсиращ трипсин (0,02 mg/ml) в 25 mM NH4HCO3 към всяко парче гел. Пробите се поставят за 15 минути при 4 ° С и се инкубират една нощ при 37 ° С. Реакцията беше спряна с 1 μl 5% (v/v) мравчена киселина. Триптичните пептиди се анализират чрез течна хроматография в тандемна масспектрометрия.

Анализ на течна хроматография в тандем с масова спектрометрия

Създаване на бази данни и идентифициране на протеини

Търсенията на протеини бяха извършени с ProteinPilot (ProteinPilot Software 5.0.1; Revision: 4895; Paragon Algorithm: 5.0.1.0.4874; AB SCIEX, Framingham, MA, United States) (Matrix Science, London, United Kingdom; v. 2.2). Парагонните търсения 34 бяха извършени с помощта на настройките на инструмента LC MS/MS Triple TOF 5600 System. Други параметри, използвани за търсенето, бяха, както следва: Тип на пробата: Идентификация, Cys алкилиране: Йодоацетамид, Храносмилане: Трипсин, ID Фокус: Биологични модификации и замествания на аминокиселини, Усилие за търсене: Основен идентификатор, Открит праг на протеина [Неизползван ProtScore (Conf)] >: 0,05 (10,0%).

Три DB са създадени с помощта на един и същ метагеном (EMBL-EBI номер на проекта: ERP009703, Ocean Sampling Day 2014, извадка: OSD14_2014_06_2m_NPL022, ID на изпълнение: ERR771073) (MiSeq Illumina Technology) и са генерирани с mPies v 0.9, наскоро разработените ни mPies програма, свободно достъпна на https://github.com/johanneswerner/mPies/ (Допълнителна презентация 1; Werner et al., 2019). Трите DB са: (i) несглобена DB, получена от метагеном (NAM-DB), (ii) събрана DB, получена от metagenome (AM-DB) и (iii) DB, получена от таксономия (TAX-DB ) (Маса 1). Накратко, mPies за първи път подрязва секвенирането в сурово състояние с Trimmomatic (Bolger et al., 2014). За NAM-DB, mPies директно предсказва гени от отрязани последователности отчитания с FragGeneScan (Rho et al., 2010). За AM-DB, mPies за първи път събра срязано секвениране, четене в contigs, използвайки metaSPAdes (Nurk et al., 2017) и впоследствие извикани гени с Prodigal (Hyatt et al., 2010). За TAX-DB mPies създаде псевдометагеном, използвайки SingleM (Woodcroft, 2018), за да предскаже оперативни таксономични единици от изрязаното четене на последователност и извлече всички идентификатори на таксони на ниво род. Всички налични протеоми за всеки идентификатор на таксон впоследствие бяха изтеглени от UniProtKB/TrEMBL. Дублираните протеинови последователности бяха отстранени с CD-HIT (Fu et al., 2012) от всяка DB.

маса 1. Получени двустранни изпълнения за търсене за всяка методика.

MS/MS спектрите на базата на гел и без гел бяха търсени индивидуално два пъти спрямо DB. При първоначалното търсене бяха използвани NAM-DB, AM-DB и TAX-DB в пълен размер (Таблица 1). При търсенето във втория кръг всяка DB е била ограничена до протеиновите последователности, идентифицирани при търсенето от първия кръг. Както за безгел, така и за гел-базирани подходи, вторият кръг NAM-DB, AM-DB и TAX-DB бяха обединени и излишните протеинови последователности бяха премахнати, което доведе до две комбинирани DB (Comb-DB), впоследствие търсени срещу гел базирани и без гел MS/MS спектри. Следователно в тази статия бяха анализирани общо осем метапротеома, получени от четири DB: NAM-DB, AM-DB, TAX-DB и Comb-DB. За всяко търсене на протеин се използва праг на FDR от 1%, изчислен на ниво протеин. Протеините, идентифицирани с един-единствен пептид, бяха валидирани чрез ръчна проверка на MS/MS спектрите, като се гарантира, че се наблюдава серия от поне пет последователни специфични за последователността йони от тип b и y от типа.

Анотация на протеини

Идентифицираните протеини бяха анотирани с помощта на mPies. За таксономична и функционална анотация, mPies използва Diamond (Buchfink et al., 2015) за подравняване на всяка идентифицирана протеинова последователност, съответно на нередудентните NCBI DB и UniProt DB (Swiss-Prot), и извлича до 20 най-добри попадения по резултат за подравняване (> 80). За таксономична анотация mPies върна LCA сред най-добрите попадения чрез MEGAN (битов резултат> 80) (Huson et al., 2016). За функционална анотация, mPies върна най-честото име на протеин, с праг на толерантност на консенсус> 80% от сходството сред 20-те най-добри попадения. Протеините, отбелязани с оценка под този праг, бяха валидирани ръчно. Ръчното валидиране беше лесно, тъй като основните причини, водещи до нисък рейтинг на анотиране, често се обясняваха чрез характеризиране на протеинови изоформи или различни подединици на един и същ протеин. За да се улесни разбирането на тази стъпка за анотиране, примери бяха предоставени в Допълнителна презентация 2. Анотираните протеинови файлове са налични в Допълнителен лист с данни 1.

Резултати и дискусия

Изборът на база данни влияе върху общия брой идентифициране на протеини

Стратегията за търсене в два кръга, често използвана в последните проучвания за метапротеомика (Russo et al., 2016; Serrano-Villar et al., 2016; Deusch et al., 2017; Gallois et al., 2018) значително намалява размера на търсенето на протеини DB, което от своя страна увеличава общия брой идентифицирани протеини както с AM-DB, така и с NAM-DB (Таблица 1). Като цяло беше установено, че общият брой идентифицирани протеини съответства на други метапротеомични проучвания, проведени в морски олиготрофни води (Morris et al., 2002; Sowell et al., 2009; Williams et al., 2012, 2013; Dong et al., 2014). NAM-DB доведе до по-големи идентификации на протеини (на базата на гел: 714, без гел: 1131), отколкото на AM-DB (на базата на гел: 277 и без гел: 549) и на TAX-DB (на базата на гел: 434 и гел -безплатно: 464) и за двата протеомични подхода. Comb-DB дава сравними резултати с NAM-DB и при двата подхода (на базата на гел: 700 и без гел: 1048). В подхода AM-DB процесът на сглобяване включва премахване на четения, които не могат да бъдат събрани в по-дълги контиги, което води до загуба на генни фрагменти и следователно по-малко идентифицирани протеини (Cantarel et al., 2011). Тъй като високият дял на прокариотните геноми кодира протеини, генните фрагменти могат директно да се прогнозират от несглобени секвенции (Koonin, 2009). TAX-DB страда от намаляване на чувствителността на откриване на протеини поради големия си размер при търсене в първия кръг, което отрицателно повлиява на FDR статистиката и добива на идентификация на протеини (Jagtap et al., 2013).

DB за търсене на протеини засяга таксономичната структура

Делът на протеините, за които е открит LCA, намалява с понижаване на таксономичната йерархия (Domain> Phylum> Class> Order> Family> Genus), независимо от методологията (Фигура 1). Делът на анотираните протеини в нивата на домейн, тип и клас остава постоянен със средно съответно 97,3 ± 1,0, 92,0 ± 1,1 и 80,3 ± 0,8% (Фигура 1 и Допълнителна таблица 1). На ниво поръчка и по-ниско, TAX-DB се представи най-добре при присвояване на LCA, както в подходи без гел, така и на гел. Тези резултати могат да се обяснят с факта, че протеините са били анотирани с помощта на метод на подреждане, базиран на последователност (Werner et al., 2019). TAX-DB включва пълни протеинови последователности от UniProtKB, което позволява точни анотации. Този резултат потвърди, че LCA подходът, изпълнен на ниво протеин, се влияе от DB, както преди това беше демонстрирано на ниво пептид (May et al., 2016).

Фигура 1. Таксономична и функционална белтъчна анотация. Сравнение на дела на протеините, за които е консенсусна анотация. Баровете представляват процента на анотираните протеини спрямо общия брой идентифицирани протеини в зависимост от методологията.

На ниво филум, повечето от идентифицираните протеини са определени Протеобактерии и най-слабо разпространените бяха главно определени за Бактероидети и Цианобактерии (Таблица 2). Макар че Протеобактерии показа сходен дял във всички метапротеоми (90,9 ± 0,97%), представителността на Бактероидети и Цианобактерии беше установено, че е по-променлива в различните DB. Подобното разпределение може да се обясни с факта, че трите DB, използвани в това проучване, са получени от един и същ метагеном. В действителност, като се използват различни източници на данни (метагеноми и различни публични хранилища), може да се очакват контрастни разпределения, както наскоро беше демонстрирано (Timmins-Schiffman et al., 2017). В нашето проучване, Алфапротеобактерии е установено, че е най-представеният клас (72,9 ± 1,9%), последван от Гамапротеобактерии (18,2 ± 2,0%), Flavobacteriia (4,1 ± 0,5%) и некласифициран Цианобактерии (3,0 ± 0,7%) (Таблица 2). Доминирането на Алфа- и Гамапротеобактерии често се съобщава в други морски метапротеомични проучвания (Morris et al., 2010; Williams et al., 2012; Georges et al., 2014) поради високото им разпространение в повечето морски места за вземане на проби. Други изследвания, фокусирани върху пробата от морска повърхност, също подкрепят наличието на Цианобактерии (Sowell et al., 2009) и Flavobacteriia (Williams et al., 2013).

Таблица 2. Сравнение на разпределението на протеините, определени на ниво и клас, за всяка методология.

Фигура 2. (А) Относителен таксономичен състав на ниво поръчка за всяка методология. Стойностите представляват дела на протеините с идентична таксономия върху общия идентифициран протеин, използвайки TAX-DB, NAM-DB, AM-DB или Comb-DB както в подходи без гел, така и на гел. Броят на пептидите, открити за всеки протеин, се използва като количествена стойност. Такса, показваща пропорция AM-DB (на базата на гел: 61%, без гел: 54%)> NAM-DB (на базата на гел: 50%, без гел: 54%) (Фигура 1 и допълнителна таблица 1). Използвайки Comb-DBs, 59 и 67% от функционалните анотации са наблюдавани съответно при гел-базиран и без гел подход. Базираната на подравняване функционална анотация (Werner et al., 2019) може да е неоптимална, когато протеиновата архитектура е различна. В този случай прогнозирането на домейн с помощта на InterProScan (Jones et al., 2014) би било допълващ подход, който би потвърдил функционален консенсус, основан на подравняване.

Във всички метапротеоми бе установено, че 60 kDa шаперонин е най-разпространеният протеин (Фигура 3А). Преобладаването на протеините на шаперонин е наблюдавано преди това в други морски метапротеомични проучвания (Sowell et al., 2009, 2011; Williams et al., 2012). 60 kDa шаперонинът е основен протеин, участващ в голям диапазон на сгъване на протеини и потенциално може да действа като сигнална молекула (Maguire et al., 2002). Освен това този протеин се намира в почти всички бактерии. Някои таксони, като Алфапротеобактерии или Цианобактерии, често съдържат няколко 60 kDa хомолози на шаперонин (Lund, 2009). В допълнение към своята повсеместност и неговата жизненоважна роля, изобилието от 60 kDa шаперонин може да се интерпретира като отговор на излагането на стрес на околната среда (Sowell et al., 2009, 2011; Williams et al., 2012).

Фигура 3. (А) Относителен функционален състав за всяка методология. Стойностите представляват дела на протеините с идентично функционално наименование върху общия идентифициран протеин, използвайки TAX-DB, NAM-DB, AM-DB или Comb-DB както в подходи без гел, така и на гел. Броят на пептидите, открити за всеки протеин, се използва като количествена стойност. Протеиновите изоформи и/или подединици бяха групирани под същата функция. Функции, показващи пропорция Ключови думи: метапротеомика, метагеномика, биоинформатика, масова спектрометрия, микробна екология

Цитиране: Géron A, Werner J, Wattiez R, Lebaron P и Matallana-Surget S (2019) Дешифриране на функционирането на микробните общности: Проливане на светлина върху критичните стъпки в метапротеомиката. Отпред. Микробиол. 10: 2395. doi: 10.3389/fmicb.2019.02395

Получено: 15 юли 2019 г .; Приет: 03 октомври 2019 г .;
Публикувано: 24 октомври 2019 г.

Рамиро Логарес, Висш съвет за научни разследвания, Испания

Nico Jehmlich, Център за изследвания на околната среда Helmholtz (UFZ), Германия
Magnus Øverlie Arntzen, Норвежки университет за науки за живота, Норвегия