Франческо Джентиле

† Простатен център във Ванкувър, Университет на Британска Колумбия, Ванкувър, Британска Колумбия V6H3Z6, Канада

Vibudh Agrawal

† Простатен център във Ванкувър, Университет на Британска Колумбия, Ванкувър, Британска Колумбия V6H3Z6, Канада

Майкъл Хсинг

† Простатен център във Ванкувър, Университет на Британска Колумбия, Ванкувър, Британска Колумбия V6H3Z6, Канада

Ан-Тиен тон

† Простатен център във Ванкувър, Университет на Британска Колумбия, Ванкувър, Британска Колумбия V6H3Z6, Канада

Fuqiang Ban

† Простатен център във Ванкувър, Университет на Британска Колумбия, Ванкувър, Британска Колумбия V6H3Z6, Канада

Улф Нориндър

∇ Swetox, отдел по токсикологични науки, Karolinska Institutet, Forskargatan 20, SE-151 36 Södertalje, Швеция

∥ Департамент по компютърни и системни науки, Стокхолмски университет, кутия 7003, SE-164 07 Киста, Швеция

Мартин Е. Глийв

† Простатен център във Ванкувър, Университет на Британска Колумбия, Ванкувър, Британска Колумбия V6H3Z6, Канада

Артем Черкасов

† Простатен център във Ванкувър, Университет на Британска Колумбия, Ванкувър, Британска Колумбия V6H3Z6, Канада

Свързани данни

Резюме

docking

Кратко резюме

Разработихме Deep Docking, платформа за дълбоко обучение, която разчита на количествени модели на взаимоотношения структура-активност, обучени с докинг десетки малки порции свръхголеми бази данни, за да прогнозират десетки останали записи и по този начин да ускорят виртуалния скрининг 50 пъти.

Въведение

Откриването на лекарства е скъп и изискващ време процес, който е изправен пред много предизвикателства, включително ниски нива на откриване за скрининг с висока производителност, наред с много други. 1,2 Методи за компютърно подпомагане на откриването на наркотици (CADD) могат значително да ускорят темпото на такъв скрининг и могат драстично да подобрят честотата на попадение. 3 Молекулярният докинг рутинно се използва за обработка на виртуални библиотеки, съдържащи милиони молекулярни структури срещу различни лекарствени цели с известни триизмерни структури.

Неотдавнашният напредък в автоматизирания синтез и нарастването на наличните химикали представляват големи възможности за подходи на виртуалния скрининг (VS) като цяло и за докинг в частност, но също така поставя изцяло нови предизвикателства. Например широко използваната библиотека ZINC е нараснала от 700 000 записа през 2005 г. 4 до над 1,3 милиарда съставни молекули през 2019 г., 5 представлявайки забележително 1000-кратно увеличение. Все още има глобална липса на опит в скрининга на такива библиотеки и предимството от тяхното скачване спрямо по-малките колекции все още е предмет на дебат. 6 Въпреки това, малко наскоро публикувани трудове изглежда се застъпват за разширяване на VS до свръхголеми химически библиотеки. В неотдавнашно новаторско проучване на Lyu et al, 7 автори съобщават за докинг на 170 милиона молекулярни структури по заявка, показващи, че VS на такива бази данни позволява откриването на силно мощни инхибитори, както и нови химически класове, които не присъстват в рутинно екранирани библиотеки на склад. По-късно други докинг проучвания, включващи големи колекции от молекули, водят до подобни заключения. 9,10

По-рано възможността за прогнозиране на докинг резултати чрез модели с плитка количествена структура-активност (QSAR) е изследвана от нас (с помощта на 3D „индуктивни“ дескриптори 12) и други, като се използва машина за подпомагане на вектори или случайна гора заедно с конформни предиктори. 13,14 Нито един от тези методи обаче не предлага достатъчно ускорение за справяне с милиарди молекули и по този начин подобни изследвания са ограничени до най-много няколко милиона съединения. Дълбокото обучение (DL), от друга страна, е особено подходящо за обработка на голям набор от данни 15, а методът бързо набира интерес към откриването на лекарства поради превъзходното си представяне в сравнение с традиционните техники за машинно обучение. 16-18 По този начин, ние очакваме, че използването на DL може да отключи пълен потенциал и истинско взаимодействие между докинг и QSAR методологии и ще се възползва в пълна степен от свръхголемите данни за докинг база данни.

Резултати

В настоящото проучване въведохме използването на бързо изчислени и независими от целта дескриптори на QSAR (като 2D молекулярен пръстов отпечатък), използването на итеративно и бързо произволно вземане на проби от докинг базата данни и, главно, използването на DL за предсказвайте точки за скачване на все още необработени записи в базата данни на всяка стъпка на итерация. В резултат на това DD постига до 100 пъти намаление на свръхголямата база данни за докинг станции и до 6000 пъти обогатяване за най-високо класираните хитове, като същевременно избягва значителна загуба на благоприятни виртуални хитове, както ще бъде разгледано по-долу.

DD тръбопровод

За всяко въвеждане на ултраголяма докинг база данни (като ZINC15) се изчислява стандартният набор от базирани на лиганд QSAR дескриптори (като молекулярни пръстови отпечатъци);

Подгрупа за обучение с разумен размер се избира на случаен принцип от базата данни и се докира в интересуващата цел, използвайки конвенционален (и) протокол (и) за докинг станция;

След това генерираните докинг резултати на тренировъчните съединения се свързват с техните 2D молекулни дескриптори чрез DL модел; след това резултатът на докинг резултат (обикновено отрицателен) се използва за разделяне на тренировъчните съединения във виртуални попадения (резултат под границата) и нехитове (резултат над границата);

Полученият дълбок модел QSAR (обучен по емпирични резултати от докинг) се използва за прогнозиране на резултатите от докинг на все още необработени записи в базата данни. След това предварително дефиниран брой прогнозирани виртуални попадения се вземат на случаен принцип и се използват за увеличаване на обучителния набор;

Стъпки b – d се повтарят итеративно, докато се достигне предварително определен брой итерации и/или обработени записи на ултраголяма докинг база данни се конвергират.

Схема на тръбопровода DD. (Най-отгоре) DD инициализация: малка проба от молекули се извлича на случаен принцип от ултраголяма докинг база данни и се докира до разглежданата цел. След това генерираните резултати от докинг станция се използват за обучение на QSAR модел с дълбочина. След това създаденото QSAR решение се използва за прогнозиране на резултата от докинг за останалата част от базата данни и за връщане на прогнозирани виртуални посещения, необходими за стартиране на итерация 2. (Отдолу) DD скрининг: от итерация 2 нататък, дълбокият модел постепенно се подобрява чрез увеличаване на обучението набор с произволно взети на проби QSAR-предсказани виртуални попадения от предишната итерация на DD (които също се избират за действително скачване). Цикълът се повтаря за предварително определен брой итерации, след което DD връща най-точковите молекули от база данни. Тази окончателна библиотека може да бъде обработена след обработка, за да се премахнат остатъчните обекти с ниска оценка. Алтернативно, стъпки 2–11 могат да се извършват до сближаването на ултраголяма база данни за докинг станция.

В DD извикването на виртуални посещения (т.е. процентът на действителните виртуални посещения, който се извлича от базата данни) се задава неявно чрез вероятностен праг, който е избран да включва 90% от действителните виртуални посещения в набора за проверка. След това, същият праг се прилага към независимия набор от тестове и се изчислява изземването на виртуални хитове, за да се оцени обобщаемостта на модела. Ако изземванията на валидационните и тестовите набори са съвместими помежду си, моделът се прилага към всички записи в базата данни (повече подробности можете да намерите в Методите). Въпреки че стойностите за изземване могат да бъдат одобрени изрично, като се използват, например, конформни предиктори, 14,19, ние не наблюдаваме значителни разлики в резултатите от резултатите на DD.

Скриптовете за стартиране на DD конвейер са публично достъпни в GitHub, заедно с инструкции за настройка на изпълнения и няколко допълнителни инструмента за улесняване на автоматизацията на HPC клъстери на https://github.com/vibudh2209/D2.

Вземане на проби от изключително голяма докинг база данни

Изборът на представителен и балансиран набор от обучения е критична стъпка от всеки работен процес на моделиране. В контекста на вземане на проби от химическо пространство, подходящият комплект за обучение по ДД трябва ефективно да отразява химическото разнообразие на базата данни. Може да се очаква, че увеличаването на размера на пробата и предотвратяването на докинг базата в крайна сметка ще подобри или дори сближи покритието на химическото пространство. От друга страна, понастоящем не е възможно да се групират милиарди химически структури по какъвто и да е начин или форма, а също така е доказано, че предотвратяването на големи библиотеки преди скачване може значително да понижи ранга на активните хемотипове, като по този начин възпрепятства откриването на нови инхибитори или активатори. 7 Освен това, пристрастното вземане на проби към молекули, които са високо класирани от DD като потенциални виртуални попадения, може да изключи ниско класираните, но истински положителни молекули от избора за обучение на модели; следователно избрахме произволно вземане на проби за всички итерации на DD. И накрая, размерът на обучителния комплект за DD (напр. Количеството на действителната докинг станция) би имал ключово въздействие върху изчислителното време на изпълнение и трябва да бъде внимателно контролиран.

Ефект от размера на извадката от учебния набор върху обобщаемостта на модела. (а) Средни стойности за изземвания на тестови набори, изчислени с помощта на различни размери на пробата. Стойностите се доближават до 0,90 за всички цели, когато размерът на тренировъчния набор е в рамките на 250 000 и 1 милион молекули. (б) Вариации на стандартни отклонения (STD) се приближават до 0, за размер на пробата от 1 милион молекули. Проведохме по една итерация за всяка цел и повторихме изчисленията пет пъти при всеки размер на извадката.

Намаляване на размера на ZINC15 чрез DD Virtual Screening

Основната цел на методологията DD е да намали свръхголямата докинг база данни с милиарди записи до управляемо подмножество от няколко милиона молекули, което все още обхваща по-голямата част от виртуалните хитове. След това тази крайна молекулярна подгрупа може нормално да бъде докирана в целта с помощта на една или няколко докинг програми или може да бъде обработена с други VS средства. Методът DD разчита на итеративно усъвършенстване на обучението за дълбока невронна мрежа (DNN) чрез разширяване на неговия набор от обучения с прогнозирани ударени молекули от всяка предишна итерация, докато решаващото прекъсване също постепенно става по-строго. Ние подробно оценихме ефективността на този DD протокол, като скринирахме всички 1,36 милиарда молекули от ZINC15 спрямо въведените 12 протеинови цели, използвайки докинг програма FRED. 21 Забележително е, че DD самият не е докинг двигател, а DL предиктор за оценка, който да се използва заедно с всяка докинг програма за бързо елиминиране на априорно неблагоприятни, „несъбираеми“ молекулни образувания и следователно драстично увеличаване на скоростта на действително скачване.

За да демонстрираме силата на DD, тествахме тръбопровода с фиксиран набор от параметри, като брой итерации, стойности за изземване и други, за да осигурим обективно сравнение между 12-те изследвани системи. Предвижда се потребителите на DD да искат да използват параметри на симулация, различни от нашите, които най-добре отговарят на тяхното разпределение на време и ресурси: например, по-малко итерации с повече докинг на итерация и по-малко DL цикли могат да бъдат оптимален избор за изчисляване на клъстери с много процесори и малко графични процесори и обратно.

Статистика за ефективността на ДД за 12 цели за наркотици. (а) Вариация на граничните стойности на резултатите, използвани за избор на виртуални попадения при всяка итерация. (б) Вариация на броя на молекулите, предвидени като виртуални попадения след всяка итерация. (c) Итеративно подобрение на средните стойности на докинг бала за произволно избрани молекули, използвани за увеличаване на тренировъчния набор. (d) Стойности за обогатяване, изчислени за 100 най-добре класирани прогнозирани виртуални посещения в тестовия набор след всяка итерация.