Резюме

Заден план

Тази статия представя преносима система за фенотипиране, която е способна да интегрира както основани на правила, така и подходи, базирани на статистическо машинно обучение.

фенотипиране

Методи

Нашата система използва UMLS за извличане на клинично значими характеристики от неструктурирания текст и след това улеснява преносимостта в различни институции и системи за данни, като включва OMOP Common Data Model (CDM) на OHDSI за стандартизиране на необходимите елементи от данни. Нашата система може също да съхранява ключовите компоненти на системи, базирани на правила (напр. Съвпадения на регулярни изрази) във формата на OMOP CDM, като по този начин дава възможност за повторна употреба, адаптация и разширяване на много съществуващи базирани на правила клинични NLP системи. Експериментирахме с нашата система в корпуса от предизвикателството за затлъстяване на i2b2 като пилотно проучване.

Резултати

Нашата система улеснява преносимото фенотипизиране на затлъстяването и неговите 15 съпътстващи заболявания въз основа на неструктурирани обобщения на изписването на пациента, като същевременно постига ефективност, която често се нарежда сред топ 10 на участниците в предизвикателството.

Заключение

Нашата система за стандартизация дава възможност за последователно прилагане на многобройни техники за класифициране, основани на правила и машинно обучение, надолу по веригата в различни набори от данни, които могат да произхождат от различни институции и системи за данни.

Въведение

Електронният здравен запис (EHR) често се описва като „надлъжен електронен запис на здравна информация за пациентите, генериран от една или повече срещи във всяка среда за предоставяне на грижи. В тази информация са включени демографски данни за пациентите, бележки за напредъка, проблеми, лекарства, жизнени показатели, минала медицинска история, имунизации, лабораторни данни и доклади за рентгенологията. " [1] Тъй като медицинското обслужване става по-управлявано от данни и основано на доказателства, тези EHR стават основни източници на здравна информация, необходима за вземане на решения във всички аспекти на оценката на пациентите, фенотипирането, диагностиката и лечението.

Тези EHRs съдържат както а) структурирани данни като поръчки, лекарства, лаборатории, диагностични кодове и неструктурирани данни като текстови бележки за клиничен напредък, рентгенологични и патологични доклади. Докато структурираните данни може да не изискват значителна предварителна обработка за получаване на знания, техниките за обработка на естествен език (NLP) обикновено се използват за анализ на неструктурирани данни. Тези неструктурирани данни могат да бъдат включени в различни вторични анализи, като например подкрепа за клинични решения, основани на доказателства практики и изследвания и изчислително фенотипиране за идентифициране на кохорти на пациенти [2, 3]. Освен това ръчното етикетиране на голям обем неструктурирани данни от експертите може да отнеме много време и да е непрактично, когато се използва в множество източници на данни. Автоматизираното извличане на информация от неструктурирани данни чрез NLP предоставя по-ефективна и устойчива алтернатива на ръчния подход [2].

Както е обобщено в преглед от 2013 г. от Shivade et al. [4] ранните изчислителни фенотипични проучвания често са формулирани като контролирани учебни проблеми, при които се предоставя предварително дефиниран фенотип и задачата е да се изгради кохорта от пациенти, отговаряща на критериите на дефиницията. Неструктурираните клинични разкази могат да обобщят медицинската история на пациентите, диагнозите, лекарствата, имунизациите, алергиите, рентгенологичните изображения и резултатите от лабораторните тестове, под формата на бележки за напредъка, доклади за освобождаване от отговорност и т.н. и да предоставят ценен ресурс за изчислително фенотипиране [5]. Докато насочваме читателите към рецензии като [4, 6] за повече подробности относно методите за фенотипиране, ние посочваме, че хетерогенността на информацията в клиничните разкази изисква разработването на преносими алгоритми за фенотипиране. Boland и сътр. [7] подчерта хетерогенността, очевидна в клиничните разкази поради разликата в експертния опит и поведението на лекарите, както и в институционалната среда и настройки. Изследванията са приложили Унифицирана медицинска езикова система (UMLS) или други външни контролирани речници, за да разпознаят различните изрази на една и съща медицинска концепция, а стандартните UMLS анотации обикновено се считат за задължителни за преносимото фенотипиране [8, 9].

Нашата основна цел беше да въведем преносимост на текущите изследователски усилия за NLP-управляемо фенотипиране на неструктурирани клинични записи. За тази цел ние използвахме добре дефиниран проблем с фенотипирането, i2b2 Challenge Challenge, за да извършим пилотно проучване и въведохме нови стъпки към този многокласов и небалансиран в класа класификационен проблем за преносимост. Извличаме структурирана информация от 1249 обобщения на текстови освобождавания на пациента, като анализираме всеки запис чрез контекстно разузнаващ анализатор (MetaMap [10]) и картографираме всички извлечени функции в уникалните идентификатори на концепцията на UMLS (CUI). След това резултатите на MetaMap се съхраняват в база данни на MySQL, като се използват схемите, дефинирани в Общия модел на данни на обсервационните медицински резултати (OMOP) (CDM), модел за стандартизация на данните, отстояван от сътрудничеството на Observational Health Data Sciences and Informatics (OHDSI).

Ние признаваме полезността на съществуващите NLP системи, базирани на правила (например RegEx) и даваме възможност на нашата система да въведе/подобри тяхната преносимост, като съхранява ключови компоненти на NLP системи, базирани на правила, като независими анотации [11], използвайки определения формат в OMOP CDM. Ние изследваме компромиса между точността на фенотипирането и преносимостта, който до голяма степен е игнориран, но е от критично значение. Оценихме комбинация от подходи, основани на правила (RegEx) и подходи за машинно обучение, за да оценим компромиса чрез итеративен начин за затлъстяване и неговите 15 съпътстващи заболявания. Изпълнихме четири типа алгоритми за машинно обучение в нашия набор от данни и проведохме множество итерации на оптимизации за балансиран компромис между производителността на класификацията и преносимостта. По-специално, дървото за решения доведе до най-добро представяне с F-Micro резултат за интуитивна класификация при 0.9339 и текстова класификация при 0.9546 и F-Macro оценка за интуитивна класификация при 0.6509 и текстова класификация при 0.7855.

Методи

Нашата преносима NLP система се основава на последователни дейности, които формират NLP тръбопровод с шест основни компонента: a) Подготовка на данни и настройка на околната среда, b) Откриване на раздели и граници, c) Извличане и картографиране на функции на анотациите, d) Регулярни изрази съответстват като анотации, д) Класификация и е) Настройка на ефективността.

Настройка на околната среда и подготовка на данните

Подготовката на данни, както често се случва, може да бъде най-трудоемката част от всеки проект за анализ на данни и нашето пътуване за разработване на система не беше изключение от правилото. Нашият набор от данни, единичен файл с текстови обобщения на изписването на 1249 пациенти, се нуждаеше от почистване на данни и подреждане на данните за по-нататъшно намаляване на данните. В стъпката за почистване на данните идентифицирахме множество съкращения, които бяха използвани за обяснение на клинични или демографски характеристики в рамките на нашия основен файл. Въпреки че тези съкращения са полезни за ускоряване на процеса на водене на бележки, те трябва да бъдат преведени обратно до пълни термини, за да може контекстният анализатор на MetaMap правилно да ги обозначи като медицинска концепция. За това деабревиране използвахме популярния скрипт за деабревиране Perl, създаден от Solt et al. [12]. Скриптът Perl разчита на съвпадение и подмяна на регулярния израз (RegEx), за да деактивира термините обратно към дълга форма. Скриптът обаче изискваше първо да преобразуваме текстовия файл в XML формат. За това създадохме Python скрипт, за да прочетем всеки запис и да го преобразуваме в XML документ.

Следващата стъпка беше разделянето на основния файл на отделни записи на пациента. Използвахме Python и RegEx за търсене на края на маркерите на записа и използвахме тази информация, за да формулираме нови файлове за всеки запис. Индивидуални файлове на пациента се изискват от MetaMap, тъй като той проследява позицията на всяка концепция от началото на всеки запис на пациента. Нашата ключова дума в края на записа беше „[запис_край]’, Което улесни откриването на граници и последващото разделяне на нови файлове. Основният файл с 1249 пациентски записа е разделен на 1249 отделни пациентски файла.

Откриване на участъци и граници

След подготовката на данните, нашата цел беше да получим определена структура от неструктурираните данни. При визуална проверка на документите на пациента наблюдавахме наличието на раздели във всеки документ като „ОСНОВНА ДИАГНОСТИКА“ и „ИСТОРИЯ НА СЪОБЩЕНАТА БОЛЕСТ“. Въз основа на нашите клинични познания и визуална проверка на нашите записи, ние съставихме списък от 15 такива раздела със заглавие на раздела и автоматично генериран уникален идентификатор на раздел. След това всеки запис на пациент беше анализиран с помощта на съвпадение на низове в Python спрямо съставения речник, за да се открие границата на раздела.

За всеки от 1249 пациентски файла проведохме съвпадение на низове от списъка с предварително кодирани секции, споменати по-горе. След като беше открито заглавие на раздел, отбелязахме индекса на началната позиция на секцията (т.е. section1start). Продължихме да анализираме файла, докато не идентифицираме началния индекс на нова секция (т.е. section2start). Следователно границата section1end беше дефинирана като section2start - 1. Запазихме всички идентифицирани секции и техните граници за всеки запис временно в нашия код на Python.

Извличане и картографиране на функцията за анотация

MetaMap е отличен инструмент, който може да съпостави клиничния текст с концепциите на UMLS Metathesaurus, които като цяло могат да се разглеждат като NLP (автоматизирани) анотации. MetaMap използва интензивен подход, основан на символни, НЛП и изчислително-лингвистични техники [10]. Всеки пациентски файл (фиг. 1) е преминал последователно през анализатора MetaMap и изходът му се съхранява в отделни изходни файлове (фиг. 2). След това картографирахме съответните изходни елементи на MetaMap в CDM на OMOP “Забележка_NLP" Маса 1.