При мини-пакетното обучение на невронна мрежа чух, че важна практика е да се разбъркват данните за обучение преди всяка епоха. Може ли някой да обясни защо разбъркването във всяка епоха помага?

От търсенето в Google намерих следните отговори:

  • помага на обучението да се сближи бързо
  • предотвратява всякакви пристрастия по време на обучението
  • пречи на модела да научи реда на обучението

Но имам трудността да разбера защо някой от тези ефекти е причинен от случайно разбъркване. Може ли някой да даде интуитивно обяснение?

обучение

6 отговора 6

Забележка: в този отговор се позовавам на минимизиране на загубата на тренировка и не обсъждам критерии за спиране като загуба на валидиране. Изборът на критерии за спиране не засяга процеса/концепциите, описани по-долу.

Процесът на обучение на невронна мрежа е да се намери минималната стойност на функция за загуба $ ℒ_X (W) $, където $ W $ представлява матрица (или няколко матрици) от тегла между невроните и $ X $ представлява набора от данни за обучение. Използвам индекс за $ X $, за да посоча, че нашето минимизиране на $ ℒ $ се случва само над тежестите $ W $ (тоест ние търсим $ W $ така, че $ is $ да е сведено до минимум), докато $ X $ е фиксиран.

Сега, ако приемем, че имаме $ P $ елементи в $ W $ (т.е. в мрежата има $ P $ тежести), $ ℒ $ е повърхност в $ P + 1 $ -мерно пространство. За да дадете визуален аналог, представете си, че имаме само две невронни тегла ($ P = 2 $). Тогава $ ℒ $ има лесна геометрична интерпретация: това е повърхност в триизмерно пространство. Това произтича от факта, че за дадени матрици с тегла $ W $, функцията на загубата може да бъде оценена на $ X $ и тази стойност се превръща в кота на повърхността.

Но има проблемът с не-изпъкналостта; описаната от мен повърхност ще има множество локални минимуми и следователно алгоритмите за градиентно спускане са податливи на „забиване“ в тези минимуми, докато по-дълбоко/долно/по-добро решение може да лежи наблизо. Това вероятно ще се случи, ако $ X $ е непроменен за всички итерации на обучение, тъй като повърхността е фиксирана за даден $ X $; всичките му характеристики са статични, включително различните минимуми.