от Дмитрий Улянов и Вадим Лебедев

аудио

Представяме разширение на синтеза на текстура и метода за прехвърляне на стилове на Leon Gatys et al. за аудио. Разработихме един и същ код за три рамки (добре, в Москва е студено), изберете любимия си:

Как прилагате невронния стил към аудиото?

Модификациите на алгоритъма за прехвърляне на стилове на изображения са доста ясни.

  • Необработеното аудио се преобразува в спектрограма чрез краткотрайна трансформация на Фурие. Спектрограмата е 2D представяне на 1D сигнал, така че може да се третира (почти) като изображение. Всъщност е по-добре да мислим за спектрограмата като за 1xT изображение с F канали.
  • След това се нуждаем от мрежа. Не можем просто да използваме VGG-19, тъй като 3x3 конволюции не са подходящи за нашия по същество 1D проблем, за който със сигурност искаме да използваме 1D конволюции. Тогава има две възможности: използвайте предварително обучена мрежа или използвайте напълно произволни тегла. При внедряването на Torch се опитах да тренирам различни видове мрежи, но те изглеждат по подобен начин. Както [1,2,3] Вадим също установи, че качеството на мрежата не е важно за синтеза на текстура. За всичките три рамки са внедрени мрежи с произволни тегла. Интересното е, че мрежата, която използваме, има само един слой с 4096 филтри.
  • И накрая трябва да възстановим сигнал от неговата спектрограма. Най-простият начин да се направи инверсията е да се използва алгоритъм Griffin-Lim.

Синтез на текстура

Чрез задаване на тегло на съдържанието на нула можем да синтезираме текстури.