Арунава

8 септември 2018 г. · 5 минути четене

Това е резюме на статията:
Перцептивни загуби за прехвърляне на стил в реално време и супер-резолюция
от Джъстин Джонсън, Александър Алахи, Ли Фей-Фей.
Документ: https://arxiv.org/pdf/1603.08155.pdf

перцептивни

Тази статия предлага използването на функции за възприемане на загуби за обучение на мрежи за обратна връзка за задачи за преобразуване на изображения, вместо да се използват функции за загуба на пиксел.

Функции за загуба на пиксел?
Сравняване на две изображения въз основа на техните индивидуални стойности на пикселите.
Така че, ако две изображения, които са перцептивно еднакви, но се различават едно от друго въз основа на дори един пиксел, тогава въз основа на функциите за загуба на пиксел те ще бъдат много различни един от друг.

Функции за перцептивна загуба?
Сравняване на две изображения, базирани на представяния на високо ниво от предварително обучени конволюционни невронни мрежи (обучени по задачи за класификация на изображения, кажете набора от данни ImageNet) .

Те оценяват своя подход по две задачи за трансформация на образа:
(i) Прехвърляне на стил
(ii) Супер разделителна способност на едно изображение

За трансфер на стилове те обучават мрежи за пренасочване, които се опитват да решат проблема с оптимизацията, предложен от Gatys et al. 2015 г.

За супер разделителна способност те експериментират с използване на перцептивни загуби и показват, че това дава по-добри резултати от използването на функции за загуба на пиксел.

Предложената архитектура на модела се състои от два компонента:
(i) Мрежа за преобразуване на изображения (f_)
(ii) Мрежа за загуби (Φ)

Мрежа за преобразуване на изображения

Мрежата за преобразуване на изображения е дълбока остатъчна конволюционна невронна мрежа, която е обучена да решава проблема за оптимизация, предложен от Gatys.

Като се има предвид входно изображение (x), тази мрежа го трансформира в изходно изображение (ŷ).

Теглото на тази мрежа (W) се научава, като се изчисляват загубите, използвайки изходното изображение (ŷ), и се сравняват с:
- изображенията на изображението на стила (y_) и изображението на съдържанието (y_), в случай на прехвърляне на стил
- само изображението на съдържанието y_, в случай на супер резолюция.

Мрежата за преобразуване на изображения се обучава, използвайки стохастичен градиент спускане, за да получи тежести (W), които минимизират претеглената сума на всички функции на загубите.

Мрежа за загуби

Loss Network (Φ) е предварително обучен VGG16 в набора от данни на ImageNet.

Мрежата за загуби се използва за получаване на представления на съдържание и стил от изображенията на съдържанието и стила:
(i) Представянето на съдържанието е взето от слоя `relu3_3`. [Фиг. 2]
(ii) Представянията на стила са взети от слоевете `relu1_2`,` relu2_2`, `relu3_3` и` relu4_3`. [Фиг. 2]

Тези представления се използват за дефиниране на два вида загуби:

Загуба на реконструкция на характеристиките
С изходното изображение (ŷ) и представянето на съдържанието от слоя `relu3_3` и използвайки следната функция за загуба в изображението