Публикувано на 12 август 2018 г.

диетични

Diet Networks е подход за задълбочено учене за предсказване на родословието, използвайки геномни данни. Броят на свободните параметри в невронната мрежа зависи от входното измерение. Размерът на геномните данни има тенденция да бъде по-голям от броя на наблюденията с три порядъка. Моделът предлага алтернативен подход към напълно свързана мрежа, която значително намалява броя на свободните параметри.

  • Обсъдете невронните мрежи и задълбоченото обучение
  • Обсъдете геномни данни и мотивирайте подхода на Diet Networks
  • Обсъдете архитектурата на Diet Network
  • Обсъдете внедряването и резултатите на TensorFlow

Невронна мрежа и дълбоко обучение

  • Невронните мрежи са представени като графични структури

  • Теглата, са свободните параметри и се научават чрез оценка на максималната вероятност и обратно разпространение.
  • Тази структура може да се използва за представяне: Линейна регресия, Многовариантна регресия, Биномиална регресия, Регресия на Softmax

  • Възлите, следващи входния слой, се изчисляват с активираща функция

Ами идеята за дълбоко обучение?

  • Добавянето на скрити слоеве позволява на модела да научи „по-дълбоко“ представяне.
  • Теорема за универсална апроксимация: мрежа с два скрити слоя и нелинейни функции за активиране може да приближи всяка непрекъсната функция в компактен подмножество от .

  • Параметрите на модела могат да бъдат представени като матрици.

Представително обучение

  • Искаме да научим ново представяне на данните, така че новите представления да са линейни в това ново пространство.

Пример:

(Изображението заимствано от тук)

  • Функциите за нелинейно активиране позволяват на модела да научи тази дискриминираща функция като линейна функция в ново пространство с функции.

(Изображението е заимствано от тук)

  • Възлите в скритите слоеве с нелинейни активиращи функции са представени като къде е нелинейната активираща функция.
  • Тогава новото представяне на се представя като .
  • Алгоритъмът по същество изследва тегловни матрици, които са в пътя на градиентно спускане.
  • Тези матрици на тежести изграждат пространството на хипотезите на функциите, разгледани в задачата за приближение на функцията.

Свиващи се слоеве

Началото на „Дълбокото“ обучение започна със свито невронни мрежи. Основната идея е да се обърне една невронна мрежа за изображение или аудио. Придвижете се тук за аритметика или тук за визуализация.

(Изображение заимствано от тук)

  • Демонстрира въртенето на ядрото или невронната мрежа около по-голямото синьо изображение, за да генерира изходен изход "надолу" в зелено.

(Изображение заимствано от тук

  • Изразява как конволюционният слой може да бъде представен от матрица. Забележете намаляването на научимите параметри.

За съжаление, геномните данни нямат очевидна връзка със съседни записи в своята последователност като изображения или аудио данни.

Геномни данни

  • Проектът за 1000 генома публикува най-големия набор от геномни данни сред 26 различни популации.
  • Данните са приблизително 150 000 единични нуклеотидни полиморфизми (SNP) за около 2500 души.
  • SNPs са по същество генетични вариации на нуклеотиди, които се срещат със значителна честота между популациите.
  • Целта е да се класифицира родословието на дадено лице въз основа на тези данни за SNP.

Структура на диетичните мрежи

  • Diet Networks предлага напълно свързана мрежа с две спомагателни мрежи.
  • Основното използване на спомагателната мрежа е да се предскажат теглата на първия слой в дискриминационната мрежа.

(Изображението е взето от Diet Networks 1 *)

  • Напълно свързана мрежа с размерни данни ще има матрица на тежестта в първия слой на дискриминационната мрежа.
  • Ако, тогава имаме 15 000 000 безплатни параметри!
  • Предложеният метод за предсказване на матрицата на теглото значително ще намали този брой.

Спомагателна мрежа за кодиране

  • Помощната мрежа за кодиране предсказва тегловната матрица в първия слой на дискриминационната мрежа.
  • Забележка:
    • е с размер
    • е с размер
    • Нека скритите слоеве имат брой единици
    • Първият слой на дискриминационната мрежа е представен от тегловната матрица, която е .
  • Първият слой в помощната мрежа има матрица на тежестта, с размер .
  • След това изходът на спомагателната мрежа .
  • има размер .
  • По този начин е подходящият размер за първия слой в дискриминиращата мрежа.
  • Крайният брой научими параметри за конструиране е

Спомагателна мрежа за декодиране

  • Същото се случва и за спомагателната мрежа за декодиране.
  • Забележка:
    • което предполага транспонирането на дава форма .
    • Резултатът от първия MLP слой, в дискриминацията е .
    • По този начин дава .
    • Реконструкцията се използва, защото дава по-добри резултати и помага при градиентния поток.

Вграждащият слой

  • Това изпълнение се фокусира върху вграждането на хистограмата.
  • Вграждането на хистограмата се генерира чрез изчисляване на честотата на всяка възможна стойност за всеки клас за всеки SNP .
  • Тази информация се съдържа в матрица, тъй като 3 типа въвеждане 26 класа дават 78.
  • Това вграждане е входът към скрит слой, който има възли.
  • Следователно ще имаме матрица с тежести, която да научим, но съответният изход ще бъде .

Внедряване и резултати на TensorFlow

Целта е да се възпроизведат резултатите от статията.

  • Те предоставят информация за модела като
    • броя на скритите единици и скритите слоеве
    • нормални ограничения върху градиентите
    • използване на адаптационен оптимизатор за стохастичен градиент на спускане със скорост на обучение
  • Хартията не посочва
    • как точно регулират параметрите
    • ако са използвали партидна норма
    • ако са използвали отпадане
    • кои функции за активиране са използвани
    • как са инициализирали тежестите на скритите слоеве
    • или кои конкретни оптимизатори са били използвани
  • Целта на това изпълнение е да бъде конкретно относно регуларизацията, инициализирането на тежестта и използваните оптимизатори.
  • Регулиране

    Регулирането е начин за предотвратяване на нашия модел от преоборудване. Помага за намаляване на грешката при обобщаването.

    Хартията посочва, че те ограничават нормата на градиентите (градиентно изрязване).

    Това изпълнение използва следните техники за регулиране:

    • Норма L2 за всяка матрична матрица (като регресия на билото)
    • градиентно отрязване (само обратно разпространение, когато градиентът е по-малък от прага)
    • инициализация на теглото (използвайте разпределение със средна стойност на нула и малка дисперсия)

    Норма на партидата

    • Партидата е подмножество от данни, използвани за обратно разпространение.
    • Нормата на партидата нормализира всяка партида при извършване на предаване напред, за да се изчисли грешка.
    • Предотвратява отклонението на параметрите на модела като причина за проблеми с мащаба.
    • Този проблем е известен като ковариантно изместване

    Отпадат

    • Отпадането е процесът на случайно изключване на невроните в модела.
    • Той позволява на всеки неврон да „гласува“ и предотвратява поднасянето на подгрупа от неврони.
    • Това е математически еквивалентно на ансамбълното обучение и е изчислително евтино.

    Функции за активиране

    • Всяка функция за активиране има свои плюсове и минуси.
    • Това изпълнение разглежда функциите за нелинейно активиране на tanh и relu.

    Оптимизатори

    • Diet Networks просто уточняват, че използват алгоритъм за учене на стохастичен градиент спускане назад за разпространение на адаптивна скорост на обучение.
    • Това изпълнение разглежда оптимизаторите ADAM и RMSprop в процеса на избор на модел.

    Изпълнение на TensorFlow

    • Следващата диаграма илюстрира структурата на това изпълнение на TensorFlow

    Лявата структура представлява помощната мрежа. Дясната структура представлява дискриминационната мрежа.

    • Навсякъде има act_fun или w_init е оставен отворен за избор на модел.

    Избор на модел

    TensorFlow има функция, наречена tensorboard, която помага да се визуализира обучението. Tensorboard е уебсайт, който показва определена обобщена статистика. За да се извърши избор на модел, се конструират много модели.

    Разгледани модели:

    • Инициализиране на тежестта при използване на нормално и равномерно разпределение със стандартно отклонение от .1 и .01
    • функции за активиране на tanh и relu
    • Адам и RMSprop оптимизатори
    • нива на обучение от .001 и .0001

    Тествайте точността на 32 модела

    Оптималният модел постига около 93% точност, която съвпада с резултатите от Diet Networks.

    Romero, Adriana, et al. „Диетични мрежи: Тънки параметри за мазнини геномни.“ Предпечат на arXiv arXiv: 1611.09340 (2016) ↩ ↩ 2