Интересно е да се спомене, че освен много по-бързото сближаване, използването на отпадане заобикаля и прекаленото прилягане в мрежата. Но тъй като мрежата е толкова малка, не можем да използваме правилно отпадането - след всеки слой - тъй като отклонението би било твърде голямо. Ще обсъдим това по-подробно по-долу при разглеждане на деривацията. Също така си струва да споменем някои трудности с вземането на проби от Томпсън. Докато правим извадка въз основа на неопределеността на модела, може да получим странни резултати от подценяване на несигурността. Това обаче може да бъде поправено доста лесно и ще бъде обяснено в следваща публикация. Друга трудност е, че алгоритъмът не прави разлика между несигурността за света (което е нещото, от което се интересуваме) и несигурността, произтичаща от неправилната спецификация на нашата мрежа. Така че, ако нашата мрежа подбира данните си и не е в състояние да намали несигурността си по подходящ начин, моделът ще пострада.

моят

Защо изобщо има смисъл?

Нека видим защо отпадащите невронни мрежи са идентични с вариационното заключение в Гаусовите процеси. Ще видим, че това, което направихме по-горе, осреднявайки напред преминава през мрежата, е еквивалентно на интегрирането на Монте Карло върху задно приближение на Гаусов процес. Деривацията използва някои дълги уравнения, които объркват оформлението на страницата на мобилни устройства - затова го поставих тук с превключвател, за да го покажа и скрия лесно. Докоснете тук, за да покажете деривацията: Деривация Докоснете тук, за да скриете деривацията: Деривация

Ще започнем от гаусов процес (GP) с определена ковариационна функция и ще извлечем вариационно приближение към модела. Ще видим, че този приблизителен модел е идентичен с отпадащите невронни мрежи. Но преди това; какво е вариационно заключение? Накратко, вариационното заключение е подход за сближаване на модела отзад, с който иначе би било трудно да се работи директно. За Гаусовия процес задната оценка изисква инверсия на матрица, голяма колкото размера на набора от данни. Това често е невъзможно. Вариационното заключение може да се използва за приближаване на тази задна част по по-управляем начин.

Като цяло, при даден модел първо обуславяме модела върху краен набор от случайни променливи $ \ bo $. Предсказуемото разпределение за нова входна точка $ \ x ^ * $ в дадения модел се дава като \ begin p (\ y ^ * | \ x ^ *, \ X, \ Y) = \ int p (\ y ^ * | \ x ^ *, \ bo) p (\ bo | \ X, \ Y) \ \ td \ bo. \ end Разпределението $ p (\ bo | \ X, \ Y) $ е задната част, която не може да бъде оценена аналитично. Определяме „по-лесно“ сближаване вариационен разпределение $ q_ \ theta (\ bo) $ параметризирано от някои вариационни параметри $ \ theta $. След това минимизираме дивергенцията Kullback – Leibler (KL): $$ \ argmin_ \ theta \ KL (q_ \ theta (\ bo)

p (\ bo | \ X, \ Y)). $$ Интуитивно, това е мярка за сходство между двете разпределения, въпреки че не е симетрична. Така че минимизирането на тази цел отговаря на приблизителното ни разпределение до разпределението, за което се грижим. Това ни дава приблизително предсказуемо разпределение: $$ q_ \ theta (\ y ^ * | \ x ^ *) = \ int p (\ y ^ * | \ x ^ *, \ bo) q_ \ theta (\ bo) \ td \ bo $$, което може да бъде апроксимирано по време на теста от $$ q_ \ theta (\ y ^ * | \ x ^ *) \ приблизително \ frac \ sum_ ^ T p (\ y ^ * | \ x ^ *, \ bo_t) $$ с $ \ bo_t \ sim q_ \ theta (\ bo) $. Минимизирането на дивергенцията на KL е същото като максимизирането на регистрационни доказателства долна граница по отношение на $ \ theta $: \ begin \ label \ cL_>: = \ int q_ \ theta (\ bo) \ log p (\ Y | \ X, \ bo) \ td \ bo - \ KL (q_ \ theta (\ bo) || p (\ bo)) \ край, където сега KL дивергенцията е между приблизителния заден $ q_ \ theta (\ bo) $ и предходния над случайните променливи $ p (\ bo) $. Това беше съвсем просто. Сега, как да приложим това към нашата обща ситуация?

Дадена ни е функция за ковариация на GP във формата \ begin \ K (\ x, \ y) = \ int \ N (\ w; 0, l ^ \ I_Q) p (b) \ sigma (\ w ^ T \ x + b) \ sigma (\ w ^ T \ y + b) \ td \ w \ td b \ край с предходен мащаб $ l $, някакво разпределение $ p (b) $ и $ \ sigma $ елементарно нелинейна функция (напр. ReLU/TanH).

Приближаваме тази функция на ковариация с интеграция на Монте Карло с $ K $ термини: \ begin \ Kh (\ x, \ y) & = \ frac \ sum_ ^ K \ sigma (\ w_k ^ T \ x + b_k) \ sigma (\ w_k ^ T \ y + b_k) \ завършва с $ \ w_k \ sim \ N (0, l ^ \ I_Q) $ и $ b_k \ sim p (b) $. Това е функция на случайна ковариация. Условията от $ K $ в интеграцията на Монте Карло биха съответствали на $ K $ скрити единици в нашата мрежа, както ще видим по-долу.

Можем да параметризираме предсказуемото разпределение на GP като \ begin \ w_k \ sim \ N (0, l ^ \ I_Q),

b_k \ sim p (b), \ notag \\ \ W_1 = [\ w_k] _ ^ K,

\ Bb = [b_k] _ ^ K, \ notag \\ \ bo = \ < \W_1, \W_2, \Bb \>\ notag \\ p (\ y ^ * | \ x ^ *, \ bo) = \ N \ bigg (\ y ^ *; \ sqrt> \ sigma (\ x ^ * \ W_1 + \ Bb) \ W_2, \ tau ^ \ I_N \ bigg) \\ p (\ y ^ * | \ x ^ *, \ X, \ Y) = \ int p (\ y ^ * | \ x ^ *, \ bo) p (\ bo | \ X, \ Y) \ td \ bo. \ end За да видите защо можете да се обърнете към (Гал и Гахрамани) за повече подробности.

След това използваме вариационно разпределение $ q_ \ theta (\ bo) = q_ \ theta (\ W_1) q_ \ theta (\ W_2) q_ \ theta (\ Bb) $, за да апроксимираме задния $ p (\ bo | \ X, \ Y) $: \ begin q_ \ theta (\ W_1) = \ prod_ ^ Q q_ \ theta (\ w_q),

Приближаваме долната граница на доказателствата в дневника (ур. \ Eqref) с интеграция на Монте Карло с една проба $ \ widehat \ sim q_ \ theta (\ bo) $: \ begin \ cL_> \ približno \ log p (\ Y | \ X, \ widehat) - \ frac || \ M_1 || ^ 2_2 - \ frac || \ M_2 || ^ 2_2 - \ frac || \ m || ^ 2_2, \ край, където приближихме втория член, следвайки теорема внесени в приложението на (Гал и Гахрамани). Това е непредубеден оценител на $ \ cL _> $. Това означава, че вариационните параметри, които максимизират тази цел, са същите като тези, максимизиращи екв. \ eqref.

Мащабирайки целта с константата $ \ frac $, получаваме целта за максимизиране: \ begin \ cL_> & \ propto - \ frac \ sum_ ^ N || \ y_n - \ widehat_n || ^ 2_2 - \ frac || \ M_1 || ^ 2_2 - \ frac || \ M_2 || ^ 2_2 - \ frac || \ m || ^ 2_2 \ край възстановяване на целта за отпадане с подходящо прецизност на модела $ \ tau $ и предишна скала на дължина $ l $ за достатъчно малък $ \ bsigma $. Тази деривация е получена като продължение на идеите в (Гал и Търнър). Нашата деривация може лесно да бъде обобщена на множество слоеве и класификация, както е обяснено в приложението към (Gal и Ghahramani). В многослойния случай се използва дълбокият гаусов процес (Дамяну и Лорънс) вместо плиткия гаусов процес.

Гмуркане в деривацията

Деривацията по-горе хвърля светлина върху много интересни свойства на отпадащите и други „трикове на занаята“, използвани в дълбокото обучение. Някои от тях са описани в приложението на (Гал и Гахрамани). Тук ще разгледаме по-дълбоки прозрения, произтичащи от деривацията. Бих искал да благодаря на Марк ван дер Вилк за някои от въпросите, повдигнати по-долу.

Също така е много готино да се види, че отпадащата мрежа, която е разработена след емпирични експерименти, е еквивалентна на използването на популярна техника за намаляване на дисперсията в нашето приближение на Гаусов процес по-горе. По-конкретно, в пълната деривация в приложението на (Gal и Ghahramani), за да съответства на модела на отпадане, трябва да параметризираме модела, така че случайните променливи да не зависят от никакви параметри, като по този начин намаляваме дисперсията в нашия Монте Карло оценител. Можете да прочетете повече за това в Kingma and Welling. Това може също да обясни защо отпадането се представя недостатъчно за мрежи, които са малки в сравнение с размера на набора от данни. Предполага се, че вариацията на оценителя е твърде голяма.

Горните разработки също предлагат нова интерпретация на причините за отпадането да работи толкова добре, колкото и техника за регулиране. В момента се смята, че отпадането работи поради шума, който създава. Бих казал, че е точно обратното: отпадането работи въпреки шума, който въвежда!. С това имам предвид, че шумът, интерпретиран като приблизителна интеграция, е страничен ефект от интегрирането върху параметрите на модела. Ако можехме, бихме оценили интегралите аналитично, без да въвеждаме този допълнителен шум. Всъщност това правят много подходи към байесовите невронни мрежи на практика.

Какво следва

Мисля, че бъдещите изследвания в момента трябва да се концентрират върху по-добри оценки на несигурността за нашите модели по-горе. Фактът, че можем да използваме апроксимиращи разпределения на Бернули, за да получим сравнително добри оценки на несигурността, ни помага в изчислително изискани настройки, но с алтернативни приближаващи разпределения трябва да можем да подобрим тези оценки на несигурността. Използването на мултипликативен гауссов шум, умножаването на мерните единици по $ \ N (1,1) $ например, може да доведе до по-точни оценки на несигурността и много други подобни изразителни, но изчислителни ефективни разпределения съществуват там. Ще бъде наистина интересно да видим принципно и креативно използване на прости разпределения, което би довело до мощни оценки на несигурността.

Програмен код

Тук поставих моделите, използвани с примерите по-горе, за да можете сами да играете с тях. Моделите използват Caffe както за невронните мрежи, така и за конволюционните невронни мрежи. Тук можете да намерите и кода за интерактивните демонстрации, използвайки рамката на Karpathy.

Заключения

Видяхме, че можем да получим несигурност на модела от съществуващите дълбоки модели, без да променяме нито едно нещо. Надяваме се, че това ще ви бъде полезно във вашето изследване, било то анализ на данни в биоинформатиката или класификация на изображения в зрителните системи. В следващия пост ще разгледам основните резултати на Гал и Гахрамани, показващи как прозренията по-горе могат да бъдат разширени, за да се получат байесови конволюционни невронни мрежи, с най-съвременни резултати на CIFAR-10. В следваща публикация ще използваме несигурност на модела за състезателни входове, като повредени изображения, които се класифицират неправилно с висока увереност (разгледайте интригуващите свойства на невронните мрежи или разчупването на линейни класификатори в ImageNet за повече подробности). Добавянето или изваждането на един пиксел от всяко входно измерение се възприема като почти непроменен вход за човешкото око, но може значително да промени вероятностите за класификация. Във високоразмерното входно пространство новото повредено изображение се намира далеч от данните и несигурността на модела трябва да се увеличи за такива входове.

Допълнителна информация

Ако искате да научите повече за гаусовите процеси, можете да гледате видео лекцията на Карл Расмусен, видео лекциите на Филип Хениг или да разгледате някои бележки от минали летни училища по гаусов процес. Можете също така да прегледате книгата „Гаусови процеси за машинно обучение“, достъпна онлайн.

Имам и няколко други минали проекта, включващи гаусови процеси, като разпределено заключение в процеса на Гаус с Марк ван дер Вилк и Карл Е. Расмусен (NIPS 2014), оценка на разпределението на вектори на дискретни променливи със стохастично вариационно заключение с Ютиан Чен и Зубин Гахрамани (ICML 2015), вариационно заключение в приближението на разредения спектър към Гаусов процес с Ричард Търнър (ICML 2015) и кратък урок за Гаусови процеси с Марк ван дер Вилк на arXiv.

Нашите разработки по-горе също показват, че отпадането може да се разглежда като приблизително заключение в байесовите невронни мрежи, което ще обясня по-задълбочено в следващия пост. Междувременно за интересни неотдавнашни изследвания на байесовите невронни мрежи можете да преминете към вариационни техники към тях (Graves от 2011 г., Gal и Ghahramani, Kingma et al. И Blundell et al. От 2015 г.), Bayesian Dark Knowledge от Korattikara et al ., Вероятностно размножаване от Мигел Хернандес-Лобато и Райън Адамс и стохастично ЕР от Ли и др.

Благодарности

Бих искал да благодаря на Christof Angermueller, Roger Frigola, Shane Gu, Rowan McAllister, Gabriel Synnaeve, Nilesh Tripuraneni, Yan Wu и проф. Yoshua Bengio и проф. Phil Blunsom за полезните им коментари по публикациите или публикацията в блога по-горе или просто общо взето. Специални благодарности на Марк ван дер Вилк за провокиращите размисли дискусии относно свойствата на сближаване.

Цитати

Искате ли да използвате тези резултати за вашето изследване? Можете да цитирате Gal и Ghahramani (или да изтеглите директно биб файла). Има и много повече резултати в самата хартия.