Шнорхел/UW/Станфорд

Последни новини

  • [5/31/2020] Предстояща беседа на събитието MSR Frontiers in Machine Learning (7/23).
  • [5/27/2020] Нашата работа с използване на шнорхел за извличане на химични реакции от биомедицинска литература е в пресата!
  • [5/1/20] Нашата работа по прилагане на шнорхел за медицинско изобразяване и наблюдение в кръстосано модално е в преса!
  • [9/4/19] Нова статия, приета на NeurIPS на функции за нарязване за наблюдение и моделиране на подмножества или парчета от масиви от данни; вижте урок в Шнорхел.
  • [8/15/19] Много развълнуван да пусна Snorkel v0.9! Бележки за изданието тук.

Едно от ключовите пречки при изграждането на системи за машинно обучение днес е създаването и управлението на набори от данни за обучение. Вместо да етикетирам данни на ръка, аз работя върху това да позволя на потребителите да си взаимодействат със съвременния ML стек програмно изграждане и управление на набори от данни за обучение. Тези слаби подходи за надзор могат да доведат до приложения, изградени за дни или седмици, а не за месеци или години. Имам голям късмет да работя с екипа на шнорхела и членовете на лабораториите Hazy, Info, StatsML, DAWN и QIAI.

Изследователски проекти

Програмиране на данни + шнорхел

Алекс Ратнер
Шнорхел дава възможност на потребителите бързо и лесно да етикетират, увеличават и структурират набори от данни за обучение, като пишат програмни оператори, вместо да етикетират и управляват данните на ръка. За повече информация относно Шнорхел, вижте snorkel.org и бележките ни за новата версия!

Публикации

Програмно етикетиране като слаб надзор

Данните за обучение на етикетите са едно от най-големите пречки в машинното обучение днес. Моята работа изследва дали потребителите могат да обучават модели без никакви ръчно обозначени данни за обучение, вместо да пише функции за етикетиране, които програмно обозначават данни, използвайки слаби стратегии за надзор като евристика, бази от знания или други модели. Тези функции за етикетиране могат да имат произволна точност и корелации, което води до нови системи, алгоритмични и теоретични предизвикателства. За повече информация вижте шнорхел.

Извличане на химични реакции от текст с помощта на шнорхел. Емили Малори, Матийо дьо Рошмонтей, Александър Ратнер, Амбика Ачария, Кристофър Ре, Роузли Брайт, Рус Олтман. BMC Биоинформатика 2020.

Кросмодалното програмиране на данни дава възможност за бързо медицинско машинно обучение. Jared Dunnmon *, Alexander Ratner *, Nishith Khandwala, Khaled Saab, Matthew Markert, Hersh Sagreiya, Roger Goldman, Christopher Lee-Messer, Matthew P. Lungren, Daniel L. Rubin, Christopher Ré. Модели 2020.

Шнорхел: Бързо създаване на данни за обучение със слаб надзор (разширена най-добра версия). Алекс Ратнер, Стивън Бах, Хенри Еренберг, Джейсън Фрис, Сен Ву, Кристофър Ре. VLDBJ 2019. [Проект]

Интерактивно програмно етикетиране за слаб надзор. Бенджамин Коен-Уанг, Стив Мусман, Александър Ратнер, Кристофър Ре. Събиране, подреждане и етикетиране на данни от KDD за семинар за копаене и обучение 2019.

Двойно слаб надзор на модели за дълбоко обучение за КТ на главата. Халед Сааб, Роджър Голдман, Джаред Дънмон, Александър Ратнър, Херш Сагрея, Кристофър Ре, Даниел Л. Рубин. MICCAI 2019.

Машинно компилирана база данни от проучвания за асоцииране с широк геном. Владимир Кулешов, Джиалин Динг, Кристофър Во, Брейдън Ханкок, Александър Ратнер, Ян Ли, Кристофър Ре, Серафим Бацоглу, Майкъл Снайдер. Nature Communications 2019.

Osprey: Слаб надзор на проблемите с небалансирано извличане без код. Еран Брингер, Абрахам Израел, Александър Ратнер, Кристофър Ре. SIGMOD DEEM Workshop 2019.

Учебни структури на зависимост за слаби модели за надзор. Парома Варма, Фредерик Сала, Ан Хе, Александър Ратнер, Кристофър Ре. ICML 2019.

Подобряване на сложността на пробите с наблюдателен надзор. Khaled Saab, Jared Dunnmon, Alexander Ratner, Daniel L. Rubin, Christopher Ré. ICLR Learning with Limited Labeled Data (LLD) Workshop 2019.

Шнорхел DryBell: Казус при внедряване на слаб надзор в индустриален мащаб. Стивън Х. Бах, Даниел Родригес, Yintao Liu, Chong Luo, Haidong Shao, Cassandra Xia, Souvik Sen, Alexander Ratner, Braden Hancock, Houman Alborzi, Rahul Kuchhal, Christopher Ré, Rob Malkin. SIGMOD (Индустриална) 2019.

Шнорхел: Бързо създаване на данни за обучение със слаб надзор. Алекс Ратнер, Стивън Бах, Хенри Еренберг, Джейсън Фрис, Сен Ву, Кристофър Ре. VLDB 2018. [Блог] [Проект] [Плакат] [Слайдове] [Покритие: O'Reilly, EETimes, InfoWorld] [„Best Of“ VLDB 2018]

Кросмодално програмиране на данни за медицински изображения. Нишит Хандвала, Алекс Ратнер, Джаред Дънмон, Роджър Голдман, Мат Лунгрен, Даниел Рубин, Кристофър Ре. NeurIPS ML4H Workshop 2017.

Машинно компилирана база данни от проучвания за асоцииране с широк геном. Владимир Кулешов, Брейдън Ханкок, Алекс Ратнер, Кристофър Ре, Серафим Бацаглу, Майкъл Снайдер. NeurIPS ML4H Workshop 2016. [Постер]

Програмиране на данни: Бързо създаване на големи учебни комплекти. Алекс Ратнер, Кристофър Де Са, Сен Ву, Даниел Селсам, Кристофър Ре. NeurIPS 2016. [Блог] [Видео] [Плакат]

AMELIE ускорява диагнозата на менделевския пациент директно от първичната литература. Йоханес Биргмайер, Максимилиан Хьослер, Коул А. Дейсерот, Картик А. Джагадеш, Александър Дж. Ратнер, Харендра Гутуру, Аарон М. Венгер, Питър Д. Стенсън, Дейвид Н. Купър, Кристофър Ре, Джонатан А. Бърнстейн, Гил Бехерано. BioRxiv 2017. [Проект]

Шнорхел: Генериране на бързо обучение за извличане на информация. Алекс Ратнер, Стивън Бах, Хенри Еренберг, Кристофър Ре. SIGMOD Demo 2017. [Проект]

Шнорхел: Система за лека екстракция. Алекс Ратнер, Стивън Бах, Хенри Еренберг, Джейсън Фрис, Сен Ву, Кристофър Ре. Резюме на CIDR 2017.

Програмиране на данни с DDLite: Поставяне на хората в различна част от цикъла. Хенри Еренберг, Джехо Шин, Алекс Ратнер, Джейсън Фрис, Кристофър Ре. HILDA @ SIGMOD 2016.

Многозадачен слаб надзор

Учене с много задачи е все по-популярен подход за съвместно моделиране на няколко свързани задачи. Моделите за учене с много задачи обаче изискват множество големи, ръчно обозначени учебни комплекти. Работата ми тук се фокусира върху използването на слаб надзор вместо това. Виждаме това да дава възможност за нова парадигма, при която потребителите бързо обозначават десетки до стотици задачи по динамични, шумни начини и изследват системи и подходи в подкрепа на това масово многозадачна режим. За начални стъпки проверете Шнорхел MeTaL.

Учебни сложни модели с многозадачен слаб надзор. Алекс Ратнър, Брейдън Ханкок, Джаред Дънмон, Фредерик Сала, Шреяш Панди, Кристофър Ре. AAAI 2019. [Проект] [Плакат] [Устно]

Шнорхел MeTaL: Слаб надзор за обучение с много задачи. Алекс Ратнър, Брейдън Ханкок, Джаред Дънмон, Роджър Голдман, Кристофър Ре. SIGMOD DEEM Workshop 2018. [Проект]

Увеличаване на данните като слаб надзор

Увеличаване на данни е все по-критичната практика за разширяване на малки етикетирани обучителни комплекти чрез създаване на трансформирани копия на точки от данни по начини, които запазват етикетите на техните класове. На практика това е прост, моделен агностичен начин за потребителите да инжектират своите знания за специфичните за домейна и задачите неизменности и моята работа тук изследва как можем да подкрепим и ускорим тази мощна форма на слаб надзор.

Теория на ядрото за модерно увеличаване на данните. Tri Dao, Albert Gu, Alex Ratner, Virginia Smith, Christopher De Sa, Christopher Ré. ICML 2019.

Други

MLSys: Новата граница на системите за машинно обучение. Александър Ратнер, Дан Алистар, Густаво Алонсо, Дейвид Г. Андерсен, Питър Бейлис, Сара Бърд, Никълъс Карлини, Брайън Катандзаро, Дженифър Чайес, Ерик Чунг, Бил Дали, Джеф Дийн, Индържит С. Дийон, Александрос Димакис, Прадийп Дубей, Чарлз Елкан, Григори Фурсин, Грегъри Р. Гангър, Лиз Гетор, Филип Б. Гибънс, Гарт А. Гибсън, Джоузеф Е. Гонзалес, Джъстин Готчлих, Сонг Хан, Ким Хейзлууд, Фуронг Хуанг, Мартин Джаги, Кевин Джеймисън, Майкъл Иордан, Gauri Joshi, Rania Khalaf, Jason Knight, Jakub Konečný, Tim Kraska, Arun Kumar, Anastasios Kyrillidis, Aparna Lakshmiratan, Jing Li, Samuel Madden, H. Brendan McMahan, Erik Meijer, Ioannis Mitliagkas, Rajat Monga, Derek Orelu Murrayun Kun, Димитрис Папаилиопулос, Генадий Пехименко, Кристофър Ре, Теодорос Рекацинас, Афшин Ростамизаде, Кристофър Де Са, Хани Седги, Сидхарта Сен, Вирджиния Смит, Алекс Смола, Песен на зората, Еван Спаркс, Йон Стойка, Вивиен Сзе, Мадленеен Уел Шиварам Венкатараман, Рашми Винаяк, Маркус Ваймер, Андрю Гордън Уилсън, Ерик Ксинг, Матей Захария, Се Жанг, Амеет Талуалкар. 2019 г..

DeepDive: Декларативно изграждане на база знания. Ce Zhang, Christopher Ré, Michael Cafarella, Christopher De Sa, Alex Ratner, Jaeho Shin, Feiran Wang, Sen Wu. Комуникации на ACM 2017.

Deepdive: Декларативно изграждане на база знания. Кристофър Де Са, Алекс Ратнер, Кристофър Ре, Джехо Шин, Фейран Уанг, Сен Ву, Се Жанг. ACM SIGMOD Record 2016.

Извличане на химични реакции от текст с помощта на шнорхел. Емили Малори, Матийо дьо Рошмонтей, Александър Ратнер, Амбика Ачария, Кристофър Ре, Роузли Брайт, Рус Олтман. BMC Биоинформатика 2020.

Кросмодалното програмиране на данни позволява бързо медицинско машинно обучение. Jared Dunnmon *, Alexander Ratner *, Nishith Khandwala, Khaled Saab, Matthew Markert, Hersh Sagreiya, Roger Goldman, Christopher Lee-Messer, Matthew P. Lungren, Daniel L. Rubin, Christopher Ré. Модели 2020.

Интерактивно програмно етикетиране за слаб надзор. Бенджамин Коен-Уанг, Стив Мусман, Александър Ратнер, Кристофър Ре. Събиране, подреждане и етикетиране на данни от KDD за семинар за копаене и обучение 2019.

Машинно компилирана база данни от проучвания за асоцииране с широк геном. Владимир Кулешов, Джиалин Динг, Кристофър Во, Брейдън Ханкок, Александър Ратнер, Ян Ли, Кристофър Ре, Серафим Бацоглу, Майкъл Снайдер. Nature Communications 2019.

Двойно слаб надзор на модели за дълбоко обучение за КТ на главата. Халед Сааб, Роджър Голдман, Джаред Дънмон, Александър Ратнър, Херш Сагрея, Кристофър Ре, Даниел Л. Рубин. MICCAI 2019.

Теория на ядрото за модерно увеличаване на данните. Tri Dao, Albert Gu, Alex Ratner, Virginia Smith, Christopher De Sa, Christopher Ré. ICML 2019.

Учебни структури на зависимост за слаби модели за надзор. Парома Варма, Фредерик Сала, Ан Хе, Александър Ратнер, Кристофър Ре. ICML 2019.

Osprey: Слаб надзор на проблемите с небалансирано извличане без код. Еран Брингер, Абрахам Израел, Александър Ратнер, Кристофър Ре. SIGMOD DEEM Workshop 2019.

Шнорхел: Бързо създаване на данни за обучение със слаб надзор (разширена най-добра версия). Алекс Ратнер, Стивън Бах, Хенри Еренберг, Джейсън Фрис, Сен Ву, Кристофър Ре. VLDBJ 2019. [Проект]

Подобряване на сложността на пробите с наблюдателен надзор. Khaled Saab, Jared Dunnmon, Alexander Ratner, Daniel L. Rubin, Christopher Ré. ICLR Learning with Limited Labeled Data (LLD) Workshop 2019.

MLSys: Новата граница на системите за машинно обучение. Александър Ратнер, Дан Алистар, Густаво Алонсо, Дейвид Г. Андерсен, Питър Бейлис, Сара Бърд, Никълъс Карлини, Брайън Катандзаро, Дженифър Чайес, Ерик Чунг, Бил Дали, Джеф Дийн, Индържит С. Дийон, Александрос Димакис, Прадийп Дубей, Чарлз Елкан, Григори Фурсин, Грегъри Р. Гангър, Лиз Гетор, Филип Б. Гибънс, Гарт А. Гибсън, Джоузеф Е. Гонзалес, Джъстин Готчлих, Сонг Хан, Ким Хейзлууд, Фуронг Хуанг, Мартин Джаги, Кевин Джеймисън, Майкъл Иордан, Gauri Joshi, Rania Khalaf, Jason Knight, Jakub Konečný, Tim Kraska, Arun Kumar, Anastasios Kyrillidis, Aparna Lakshmiratan, Jing Li, Samuel Madden, H. Brendan McMahan, Erik Meijer, Ioannis Mitliagkas, Rajat Monga, Derek Orelu Murrayun Kun, Димитрис Папаилиопулос, Генадий Пехименко, Кристофър Ре, Теодорос Рекацинас, Афшин Ростамизаде, Кристофър Де Са, Хани Седги, Сидхарта Сен, Вирджиния Смит, Алекс Смола, Песен на зората, Еван Спаркс, Йон Стойка, Вивиен Сзе, Мадленеен Уел Шиварам Венкатараман, Рашми Винаяк, Маркус Ваймер, Андрю Гордън Уилсън, Ерик Ксинг, Матей Захария, Се Жанг, Амеет Талуалкар. 2019 г..

Шнорхел DryBell: Казус при внедряване на слаб надзор в индустриален мащаб. Стивън Х. Бах, Даниел Родригес, Yintao Liu, Chong Luo, Haidong Shao, Cassandra Xia, Souvik Sen, Alexander Ratner, Braden Hancock, Houman Alborzi, Rahul Kuchhal, Christopher Ré, Rob Malkin. SIGMOD (Индустриална) 2019.

Учебни сложни модели с многозадачен слаб надзор. Алекс Ратнър, Брейдън Ханкок, Джаред Дънмон, Фредерик Сала, Шреяш Панди, Кристофър Ре. AAAI 2019. [Проект] [Плакат] [Устно]

Шнорхел: Бързо създаване на данни за обучение със слаб надзор. Алекс Ратнер, Стивън Бах, Хенри Еренберг, Джейсън Фрис, Сен Ву, Кристофър Ре. VLDB 2018. [Блог] [Проект] [Плакат] [Слайдове] [Покритие: O'Reilly, EETimes, InfoWorld] [„Best Of“ VLDB 2018]

Шнорхел MeTaL: Слаб надзор за обучение с много задачи. Алекс Ратнър, Брейдън Ханкок, Джаред Дънмон, Роджър Голдман, Кристофър Ре. SIGMOD DEEM Workshop 2018. [Проект]

Кросмодално програмиране на данни за медицински изображения. Нишит Хандвала, Алекс Ратнер, Джаред Дънмон, Роджър Голдман, Мат Лунгрен, Даниел Рубин, Кристофър Ре. NeurIPS ML4H Workshop 2017.

AMELIE ускорява диагнозата на менделевския пациент директно от първичната литература. Йоханес Биргмайер, Максимилиан Хьослер, Коул А. Дейсерот, Картик А. Джагадеш, Александър Дж. Ратнер, Харендра Гутуру, Аарон М. Венгер, Питър Д. Стенсън, Дейвид Н. Купър, Кристофър Ре, Джонатан А. Бърнстейн, Гил Бехерано. BioRxiv 2017. [Проект]

DeepDive: Декларативно изграждане на база знания. Ce Zhang, Christopher Ré, Michael Cafarella, Christopher De Sa, Alex Ratner, Jaeho Shin, Feiran Wang, Sen Wu. Комуникации на ACM 2017.

Шнорхел: Генериране на бързо обучение за извличане на информация. Алекс Ратнер, Стивън Бах, Хенри Еренберг, Кристофър Ре. SIGMOD Demo 2017. [Проект]

Шнорхел: Система за лека екстракция. Алекс Ратнер, Стивън Бах, Хенри Еренберг, Джейсън Фрис, Сен Ву, Кристофър Ре. Резюме на CIDR 2017.

Програмиране на данни: Бързо създаване на големи учебни комплекти. Алекс Ратнер, Кристофър Де Са, Сен Ву, Даниел Селсам, Кристофър Ре. NeurIPS 2016. [Блог] [Видео] [Плакат]

Машинно компилирана база данни от проучвания за асоцииране с широк геном. Владимир Кулешов, Брейдън Ханкок, Алекс Ратнер, Кристофър Ре, Серафим Бацаглу, Майкъл Снайдер. NeurIPS ML4H Workshop 2016. [Постер]

Програмиране на данни с DDLite: Поставяне на хората в различна част от цикъла. Хенри Еренберг, Джехо Шин, Алекс Ратнер, Джейсън Фрис, Кристофър Ре. HILDA @ SIGMOD 2016.

Deepdive: Декларативно изграждане на база знания. Кристофър Де Са, Алекс Ратнер, Кристофър Ре, Джехо Шин, Фейран Уанг, Сен Ву, Се Жанг. ACM SIGMOD Record 2016.

Публикации в блога

Някои мисли и уроци на високо ниво; за повече публикации в блогове, вижте специфичните за хартията по-горе и разгледайте https://www.snorkel.org/blog/

По-стари новини

[6/4/19] Две нови документи за лекарства ML +, използващи шнорхел: извличане на проучвания на GWAS (Nature Communications) и двойно слаб надзор за CT на главата (MICCAI 2019); вижте кръчми.

[4/20/19] Нова работна статия за използването на наблюдения (данни за проследяване на очите) за подобряване на класификацията на изображенията.

[3/29/19] Току-що публикуван ръкопис (в процес на преглед) на нашата работа по прилагане на шнорхел към приложения за радиология и неврология.

[4/17/19] Предстоящи беседи: Развълнуван да говоря в Съвета за данни в SF относно използването на шнорхел за наука за данни и инженеринг на данни (4/17); CMU Tepper School (4/19); ODSC Изток в Бостън (5/3); RAAIS в Лондон (6/28)

[3/14/19] Нова публикация в блога на Google AI за нашата работа по разполагане на шнорхел там; също обхванати от ZDNet и Towards Data Science.

[3/14/19] Краен срок за изпращане на нашия семинар по ICLR 2019, Учене от ограничени етикетирани данни (LLD), отложен до 3/24

[2/13/19] Нашият доклад с Google за използването на шнорхел в индустриален мащаб, приет на SIGMOD 2019

[2/1/19] Говорейки за нашата работа по многозадачен надзор @ AAAI- 10am

[1/14/19] Говорейки за нашата визия за масово обучение с много задачи @ CIDR

[11/6/18] Домакин на 2-ри семинар по шнорхел по биомедицински KBC

[10/31/18] Нашият доклад за многозадачен слаб надзор, приет от AAAI

[10/31/18] Представяне в ODSC West на 11/3 в SF

[10/22/18] Документът ни за визия за масивен многозадачен слаб надзор, приет на CIDR 2019

[8/28/18] С нетърпение очакваме представянето на шнорхел на VLDB в Рио

[7/28/18] Развълнуван от присъединяването си към организационния комитет на SysML 2019; краен срок за подаване е 9/28

[7/12/18] Току-що завърших един ден за шнорхел в лятното училище за наука за данни на ACM; вижте материалите тук.

[6/15/18] Провеждане на беседа за текущата ни работа по слабо контролиран MTL в DEEM.

[2/3/18] Говорене за програмиране на модели за машинно обучение чрез слаб надзор в семинара на AAAI DeLBP.

[1/22/18] Говорейки за шнорхел, слаб надзор и извличане на информация в подкаста Data Engineering.

[15.12.2017 г.] Документи и слайдове за разговори от нашия семинар NeurIPS LLD 2017, публикувани тук.

[15.10.2017] Нашият доклад за шнорхела е приет за VLDB 2018! Нова публикация в блога тук.

[12/9/2017] Радвам се, че ще започна семинар за слаб надзор на NeurIPS 2017: Учене от ограничени етикетирани данни: слаб надзор и след това.

[26.9.2017] Говорейки за програмиране на данни + шнорхел на конференция за данни на Strata в Ню Йорк.

[9/4/2017] Нашата работа по модели за увеличаване на данните за обучение, приети за NeursIPS 2017! Вижте публикацията в блога + код

[19.7.2017 г.] Семинар по шнорхел, организиран от Мобилизационния център, се случва! Материали и видеоклипове онлайн скоро.

[7/12/2017] Нова публикация в блога за слаб надзор - изпратете ни отзивите си

[10.10.2017] Излезе версия 0.6 на Шнорхел

[6/8/2017] Говорейки за програмиране на данни + шнорхел в подкаста на O'Reilly Data Show.