биоинформатика

Карта на човешката Х хромозома (от уебсайта на NCBI). Сглобяването на човешкия геном е едно от най-големите постижения на биоинформатиката.

Биоинформатика и изчислителна биология включват използването на техники от приложната математика, информатика, статистика и компютърни науки за решаване на биологични проблеми. Изследванията в изчислителната биология често се припокриват със системната биология. Основните изследователски усилия в тази област включват подреждане на последователността, намиране на гени, сглобяване на геном, подравняване на протеиновата структура, предсказване на протеинова структура, прогнозиране на генната експресия и протеин-протеинови взаимодействия и моделиране на еволюцията.

Условията биоинформатика и изчислителна биология често се използват взаимозаменяемо. въпреки това биоинформатика по-правилно се отнася до създаването и усъвършенстването на алгоритми, изчислителни и статистически техники и теория за решаване на формални и практически проблеми, поставени от или вдъхновени от управлението и анализа на биологичните данни. Изчислителна биология, от друга страна, се отнася до хипотезно изследване на специфичен биологичен проблем с помощта на компютри, проведено с експериментални и симулирани данни, с основна цел откриване и напредък на биологичното познание. Подобно разграничение правят Националните институти по здравеопазване в техните работни дефиниции за биоинформатика и изчислителна биология, където допълнително се подчертава, че съществува тясна връзка между разработките и знанията между изследванията в изчислителната биология и изследователската дейност, базирани на хипотези в биоинформатиката. Изчислителната биология включва и по-малко известни, но също толкова важни поддисциплини като изчислителна биохимия и изчислителна биофизика.

Обща нишка в проектите по биоинформатика и изчислителна биология е използването на математически инструменти за извличане на полезна информация от шумни данни, получени от високопроизводителни биологични техники като геномика (областта на извличането на данни се припокрива с изчислителната биология в това отношение). Представителен проблем в биоинформатиката е сглобяването на висококачествени ДНК последователности от фрагментарно ДНК секвениране на „пушка“, докато в изчислителната биология представителен проблем може да бъде статистическото тестване на хипотеза за обща генна регулация, използвайки данни от иРНК микрочипове или масова спектрометрия.

Съдържание

  • 1 Основни области на изследване
    • 1.1 Анализ на последователността
      • 1.1.1 Анотация на генома
    • 1.2 Изчислителна еволюционна биология
    • 1.3 Измерване на биологичното разнообразие
    • 1.4 Анализ на генната експресия
    • 1.5 Анализ на регулацията
    • 1.6 Анализ на експресията на протеини
    • 1.7 Анализ на мутациите при рак
    • 1.8 Предвиждане на структурата на протеини
    • 1.9 Сравнителна геномика
    • 1.10 Моделиране на биологични системи
    • 1.11 Анализ на изображения с висока производителност
  • 2 Софтуерни инструменти
  • 3 Вижте също
    • 3.1 Свързани полета
  • 4 Външни връзки
  • 5 Бележки и препратки
  • 6 Библиография

Основни изследователски области [редактиране | редактиране на източника]

Анализ на последователността [редактиране | редактиране на източника]

Друг аспект на биоинформатиката при анализ на последователността е автоматичното търсене на гени и регулаторни последователности в генома. Не всички нуклеотиди в генома са гени. В генома на висшите организми големи части от ДНК не служат на някаква очевидна цел. Тази така наречена нежелана ДНК може обаче да съдържа неразпознати функционални елементи. Биоинформатиката помага да се преодолее пропастта между проектите за геном и протеоми - например при използването на ДНК последователности за идентифициране на протеини.

Анотация на генома [редактиране | редактиране на източника]

В контекста на геномиката, анотация е процесът на маркиране на гените и други биологични характеристики в ДНК последователност. Първата софтуерна система за анотиране на генома е проектирана през 1995 г. от Оуен Уайт, който е част от екипа, който секвенира и анализира първия геном на свободно живеещ организъм, който трябва да бъде декодиран, бактерията Haemophilus influenzae. Д-р Уайт е изградил софтуерна система за намиране на гените (места в ДНК последователността, които кодират протеин), трансферната РНК и други характеристики и за първоначално определяне на функцията към тези гени. Повечето съвременни системи за анотиране на генома работят по подобен начин, но наличните програми за анализ на геномна ДНК непрекъснато се променят и подобряват.

Изчислителна еволюционна биология [редактиране | редактиране на източника]

Еволюционната биология е изследване на произхода и произхода на видовете, както и тяхната промяна във времето. Информатиката е подпомагала еволюционните биолози по няколко ключови начина; това е позволило на изследователите:

  • проследяване на еволюцията на голям брой организми чрез измерване на промените в тяхната ДНК, а не само чрез физическа таксономия или физиологични наблюдения,
  • съвсем наскоро сравнете цели геноми, което позволява изследването на по-сложни еволюционни събития, като дублиране на гени, страничен трансфер на гени и прогнозиране на фактори на бактериално видообразуване,
  • изграждане на сложни изчислителни модели на популации, за да се предвиди резултатът от системата във времето
  • проследяване и споделяне на информация за все по-голям брой видове и организми

Бъдещата работа се стреми да възстанови сега по-сложното дърво на живота.

Областта на изследване в областта на компютърните науки, която използва генетични алгоритми, понякога се бърка с изчислителната еволюционна биология. Работата в тази област включва използването на специализиран компютърен софтуер за подобряване на уравнения, алгоритми или проекти на интегрални схеми. Той е вдъхновен от еволюционни принципи като репликация, диверсификация чрез рекомбинация или мутация, фитнес, оцеляване чрез селекция или бракуване и итерация, наречена съвкупно дарвинова машина или дарвинов храповик.

Измерване на биологичното разнообразие [редактиране | редактиране на източника]

Биоразнообразието на една екосистема може да се определи като общото геномно допълнение на определена среда от всички присъстващи видове, независимо дали става дума за биофилм в изоставена мина, капка морска вода, лъжичка почва или цялата биосфера на планетата Земя. Базите данни се използват за събиране на имената на видовете, описанията, разпределението, генетичната информация, състоянието и размера на популациите, нуждите на местообитанията и как всеки организъм взаимодейства с други видове. Специализирани софтуерни програми се използват за намиране, визуализиране и анализиране на информацията и най-важното, предаването й на други хора. Компютърните симулации моделират такива неща като динамика на популацията или изчисляват кумулативното генетично здраве на развъден басейн (в земеделието) или застрашената популация (в опазване). Един много вълнуващ потенциал на това поле е, че могат да се запазят цели ДНК последователности или геноми на застрашени видове, което позволява да се запомнят резултатите от генетичния експеримент на Природата в силико, и е възможно повторно да се използва в бъдеще, дори ако този вид в крайна сметка бъде загубен.

Анализ на генната експресия [редактиране | редактиране на източника]

Експресията на много гени може да се определи чрез измерване на нивата на иРНК с множество техники, включително микрочипове, експресирано секвениране на cDNA последователност (EST), секвениране на сериен анализ на генна експресия (SAGE), масивно паралелно подписване на последователност (MPSS) или различни приложения на мултиплексирана in-situ хибридизация. Всички тези техники са изключително податливи на шум и/или са обект на пристрастия в биологичното измерване, а основна област на изследователска дейност в изчислителната биология включва разработване на статистически инструменти за отделяне на сигнала от шума при проучвания с висока производителност на гени. Такива проучвания често се използват за определяне на гените, замесени в разстройство: може да се сравнят данни от микрочипове от ракови епителни клетки с данни от неракови клетки, за да се определят транскриптите, които са регулирани нагоре и надолу в определена популация от ракови клетки.

Анализ на регулацията [редактиране | редактиране на източника]

Регулирането е сложна оркестрация на събития, започващи с извънклетъчен сигнал и в крайна сметка водещи до увеличаване или намаляване на активността на една или повече протеинови молекули. Техниките за биоинформатика са приложени за изследване на различни стъпки в този процес. Например, промоторният анализ включва изясняване и изследване на мотиви на последователността в геномната област, заобикаляща кодиращата област на ген. Тези мотиви влияят до степента, до която този регион се транскрибира в иРНК. Данните за изразяване могат да се използват за извеждане на генна регулация: може да се сравнят данни от микрочипове от голямо разнообразие от състояния на организма, за да се формират хипотези за гените, участващи във всяко състояние. В едноклетъчен организъм може да се сравнят етапите на клетъчния цикъл, заедно с различни условия на стрес (топлинен шок, глад и др.). След това може да се приложат клъстериращи алгоритми към тези данни за експресия, за да се определи кои гени са ко-експресирани. По-нататъшният анализ може да поеме в различни насоки: едно проучване от 2004 г. анализира промоторните последователности на ко-експресирани (групирани заедно) гени, за да се намерят общи регулаторни елементи и използва техники за машинно обучение за идентифициране на промоторните елементи, участващи в регулирането на всеки клъстер [1] .

Анализ на експресията на протеини [редактиране | редактиране на източника]

Протеиновите микрочипове и масовата спектрометрия с висока производителност (НТ) могат да осигурят моментна снимка на протеините, присъстващи в биологична проба. Биоинформатиката участва много в осмислянето на протеиновите микрочипове и данните от HT MS; първият подход се сблъсква със сходни проблеми, както при микрочиповете, насочени към иРНК, вторият включва проблема за съпоставяне на големи количества масови данни с предсказуеми маси от бази данни на протеиновата последователност и сложния статистически анализ на проби, при които има множество, но непълни пептиди от всеки протеин открити.

Анализ на мутациите при рак [редактиране | редактиране на източника]

В момента се предприемат масивни усилия за секвениране за идентифициране на точкови мутации в различни гени при рак. Самият обем на произведените данни изисква автоматизирани системи за четене на данни от последователността и за сравняване на резултатите от секвенирането с известната последователност на човешкия геном, включително известни полиморфизми на зародишната линия.

Олигонуклеотидните микрочипове, включително сравнителна геномна хибридизация и масиви от единичен нуклеотиден полиморфизъм, способни да изследват едновременно до няколкостотин хиляди места в целия геном, се използват за идентифициране на хромозомни печалби и загуби при рак. Разработват се скрити модели на Марков и методи за анализ на точката на промяна, за да се направят изводи за реални промени в броя на копията от често шумни данни. Допълнителни информационни подходи се разработват, за да се разберат последиците от лезии, за които е установено, че се повтарят в много тумори.

Някои съвременни инструменти (напр. Quantum 3.1) предоставят инструмент за промяна на протеиновата последователност на определени места чрез промени в нейните аминокиселини и прогнозират промени в биоактивността след мутации.

Предсказване на протеиновата структура [редактиране | редактиране на източника]

Предвиждането на структурата на протеини е друго важно приложение на биоинформатиката. Аминокиселинната последователност на протеин, т.нар първична структура, може лесно да се определи от последователността на гена, който го кодира. В по-голямата част от случаите тази първична структура уникално определя структура в нейната родна среда. (Разбира се, има изключения, като спонгиформната енцефалопатия по говедата - известна още като болест на луда крава - прион.) Познаването на тази структура е жизненоважно за разбирането на функцията на протеина. Поради липса на по-добри термини, структурната информация обикновено се класифицира като една от втори, третичен и четвъртичен структура. Жизнеспособно общо решение за такива прогнози остава отворен проблем. Към момента повечето усилия са насочени към евристиката, която работи през повечето време.

Една от ключовите идеи в биоинформатиката е понятието хомология. В геномния клон на биоинформатиката хомологията се използва за прогнозиране на функцията на ген: ако последователността на гена A, чиято функция е известна, е хомоложна на последователността на гена Б., чиято функция е неизвестна, може да се заключи, че B може да споделя функцията на A. В структурния клон на биоинформатиката хомологията се използва, за да се определи кои части на протеина са важни за формирането на структурата и взаимодействието с други протеини. В техника, наречена хомологично моделиране, тази информация се използва за предсказване на структурата на протеин, след като структурата на хомоложния протеин е известна. Понастоящем това остава единственият начин за надеждно предсказване на протеиновите структури.

Един пример за това е подобната хомология на протеините между хемоглобина при хората и хемоглобина в бобовите растения (leghemoglobin). И двете служат на една и съща цел за транспортиране на кислород в организма. Въпреки че и двата протеина имат напълно различни аминокиселинни последователности, техните протеинови структури са практически идентични, което отразява почти идентичните им цели.

Други техники за предсказване на структурата на протеини включват протеинова резба и de novo (от нулата) моделиране, базирано на физика.

Сравнителна геномика [редактиране | редактиране на източника]

Сърцевината на сравнителния анализ на генома е установяването на съответствието между гените (ортологичен анализ) или други геномни характеристики в различните организми. Именно тези междугеномни карти правят възможно проследяването на еволюционните процеси, отговорни за разминаването на два генома. Множество еволюционни събития, действащи на различни организационни нива, формират еволюцията на генома. На най-ниското ниво точковите мутации засягат отделни нуклеотиди. На по-високо ниво големите хромозомни сегменти се подлагат на дублиране, страничен трансфер, инверсия, транспозиция, делеция и инсерция. В крайна сметка цели геноми участват в процеси на хибридизация, полиплоидизация и ендосимбиоза, което често води до бързо видообразуване. Сложността на еволюцията на генома поставя много вълнуващи предизвикателства пред разработчиците на математически модели и алгоритми, които прибягват до спектри от алгоритмични, статистически и математически техники, вариращи от точни, евристични, фиксирани параметри и алгоритми за апроксимация за проблеми, базирани на модели на пасимони, до Марков Верижни алгоритми на Монте Карло за байесов анализ на проблеми, базирани на вероятностни модели.

Много от тези проучвания се основават на откриване на хомология и изчисляване на семейства протеини.

Моделиране на биологични системи [редактиране | редактиране на източника]

Системната биология включва използването на компютърни симулации на клетъчни подсистеми (като мрежи от метаболити и ензими, които съдържат метаболизъм, пътища за предаване на сигнали и мрежи за регулация на гените), за да се анализират и визуализират сложните връзки на тези клетъчни процеси. Изкуствен живот или виртуална еволюция се опитва да разбере еволюционните процеси чрез компютърната симулация на прости (изкуствени) форми на живот.

Анализ на изображения с висока производителност [редактиране | редактиране на източника]

Използват се изчислителни технологии за ускоряване или пълна автоматизация на обработката, количественото определяне и анализ на големи количества биомедицински изображения с високо информационно съдържание. Съвременните системи за анализ на изображения увеличават способността на наблюдателя да прави измервания от голям или сложен набор от изображения, като подобрява точността, обективността или скоростта. Напълно развитата система за анализ може напълно да замести наблюдателя. Въпреки че тези системи не са уникални за биомедицинските изображения, биомедицинските изображения стават все по-важни както за диагностика, така и за изследвания. Някои примери са:

  • количествено определяне с висока производителност и висока точност и субклетъчна локализация (скрининг с високо съдържание, цитохистопатология)
  • морфометрия
  • клиничен анализ на изображения и визуализация
  • определяне на моделите на въздушния поток в реално време в дишащите бели дробове на живи животни
  • количествено определяне на размера на оклузията в изображения в реално време от развитието и възстановяването по време на артериално увреждане
  • извършване на поведенчески наблюдения от разширени видеозаписи на лабораторни животни
  • инфрачервени измервания за определяне на метаболитната активност

Софтуерни инструменти [редактиране | редактиране на източника]

Най-известният сред биолозите инструмент за изчислителна биология вероятно е BLAST, алгоритъм за търсене в големи бази данни с протеинови или ДНК последователности. NCBI осигурява популярна реализация, която търси в техните масивни бази данни с последователност. Биоинформатните мета търсачки (Entrez, Bioinformatic Harvester) помагат да се намери подходяща информация от няколко бази данни. Има и безплатен уеб-базиран софтуер, предназначен за структурна биоинформатика като [1] STING.

Компютърните скриптови езици като Perl и Python често се използват за взаимодействие с биологични бази данни и анализиране на изхода от програми за биоинформатика. Общности на програмисти за биоинформатика са създали проекти с безплатен/отворен код като EMBOSS, Bioconductor, BioPerl, BioLinux, BioPython, BioRuby и BioJava, които разработват и разпространяват споделени инструменти за програмиране и обекти (като програмни модули), които улесняват биоинформатиката.

Интегрирана работна среда за софтуер, състояща се от много инструменти с безплатен/отворен код, описани по-горе и много други, е известна като VigyaanCD. Taverna работна маса за биоинформатика с отворен код, която използва модел на работен поток на експериментален дизайн. Taverna е включена като част от пакета за софтуер за електронна наука myGRID. Quantum 3.1 е пример за биоинформатичната технология след QSAR, прилагаща квантова и молекулярна физика вместо статистически методи. Genevestigator е пример за това как се използват широкомащабни данни за микроелементи за генна експресия за прогнозиране на генната функция въз основа на контекстна информация.

Съвсем наскоро SOAP-базирани интерфейси са разработени за голямо разнообразие от приложения за биоинформатика като взрив, фаста, EMBOSS, clustalw, t-кафе, MUSCLE и много други. Те са достъпни от EBI в EBI Web Services.