Pallab Kanti Podder

1 Училище по изчислителна техника и математика, Университет Чарлз Стърт, Батърст, Ню Юг, Австралия

Маноранджан Павел

1 Училище по компютърни науки и математика, Университет Чарлз Стърт, Батърст, Ню Южна Корея, Австралия

Манзур Муршед

2 Училище по информационни технологии, Федерален университет, Чърчил, VIC, Австралия

Замислени и проектирани експерименти: PKP MP MM. Изпълнява експериментите: PKP MP. Анализирани данни: PKP MP MM. Реактиви/материали/инструменти за анализ, допринесени: PKP MP. Написа хартията: PKP MP MM.

Свързани данни

Всички съответни данни са в хартията.

Резюме

Въведение

Разработвайки редица мощни инструменти за кодиране, най-новият HEVC [1] стандарт за видео кодиране осигурява подобно възприемано качество на изображението в сравнение с предшественика си H.264 [2] при приблизително 50% намаляване на скоростта на предаване поради ефективно предаване и съхранение на голям обем видео данни [3]. HEVC постига тази подобрена производителност на цената на над 4 пъти алгоритмична сложност поради разширения брой нива и схемата за разделяне на сложни кодиращи единици (CU) в сравнение с предшественика си H.264 в конкретно изпълнение [4,5]. Поради тази причина всички електронни устройства с ограничен капацитет за обработка не могат да използват напълно функциите за кодиране и декодиране HEVC. Това ни мотивира да намалим изчислителното време на HEVC кодера чрез подходящ избор на режими за предсказване. За да се случи това, се взема предвид само RDMS във видеоклипа, който включва визуално внимателна функция, базирана на изпъкналост и функции на движение, базирани на корелация на фазите.

Hou et al. [18] препоръчват праг на базата на разходите за RD за изследване на режими само на по-високо ниво, което води до 30% спестяване на време с 0,5% загуба на качество. Vanne et al. [19] предлага ефективна схема за вземане на решения между режимите чрез намиране на кандидат-режимите на симетрично и асиметрично разделяне на движението. Тестваните резултати разкриват намаляването на сложността на HEVC енкодера с 31% -51% на цената на нарастване на битовата скорост от 0,2% до 1,3%. Pan et al. [20] въвеждане на ранен алгоритъм за вземане на решения в режим MERGE за намаляване на изчислителната сложност на HEVC кодера. Въз основа на цялата информация за нулев блок и движение, те първо прилагат режим MERGE за коренните CU, след това за детските CU чрез корелация на избора на режим. Те постигат 35% спестяване на време с нарастване на скоростта на предаване от 0,32% и загуба на качество от 0,11 dB пиково съотношение сигнал/шум (PSNR). Shen et al. [21] въвеждане на метод за ранно прекратяване, базиран на критерии за проверка, който избира съответно 36% и 14% от режимите на ниво дълбочина „0“ и „3“. Този процес води до загуба на качество, особено за последователности, съдържащи голяма площ с активни движения, въпреки че техният алгоритъм спестява около 30% от изчислителното време.

В допълнение към гореспоменатите алгоритми за избор на режим, базирани на стандарт за кодиране на видео HEVC, в литературата са налични и други алгоритми за избор на бърз режим, базирани на стандарта за кодиране на видео H.264 [22–24]. Paul et al. [25] извлича съотношение на концентрация на енергия (ECR) от фазовата корелация и го използва за процес на избор на режими, за да намали времето за кодиране в стандарт H.264. Подходът, използван в [25], няма да бъде пряко приложен в HEVC за избор на директен режим или подмножество от междурежими поради трикратно удължения брой режими, двойния/четворния размер на CU и сложния (т.е. симетричен/асиметрични) CU модели на разделяне в сравнение с H.264. Нещо повече, само изборът на режим, базиран на ECR, не би осигурил очаквани резултати от компресията в HEVC, тъй като показва само остатъчната грешка между текущия блок и компенсирания при движение референтен блок. Той също така ненужно използва по-малки блокови дялове, докато блокът няма никакво транслационно движение или осигурява високо точно прогнозирано движение.

Основните приноси на тази статия са обобщени, както следва: (i) Ние въвеждаме три характеристики на движението на фазовата корелация и ги използваме за бърз процес на избор на режим в стандарта HEVC, (ii) Ние включваме видимостта в нашия алгоритъм и ефективно използваме тази функция за RDMS категоризация, (iii) За определяне на RDMS, ние адаптивно проектираме шаблони на двоичен модел, базирани на шаблоните за разделяне на CU в HEVC, и (iv) Ние разработваме базирана на съдържанието адаптивна претеглена функция на разходите чрез сливане на функции и иновативно извличане на тегла за всеки функция адаптивно.

Останалата част от статията е организирана, както следва: Раздел 2 артикулира работния механизъм на неотдавнашния HEVC, Раздел 3 описва ключовите стъпки на предложената техника на кодиране; Раздел 4 оценява подробно експерименталните резултати и дискусии, докато раздел 5 завършва доклада.

Последен анализ на HEVC

В сравнение с най-съвременния стандарт H.264, HEVC въвежда изобретателски подходи, включително разширение на размера на CU от 16 × 16 до 64 × 64 пиксела, PU и TU с променлив размер и феномен на симетрично/асиметрично разделяне на блокове . За да избере конкретен режим на предсказване на движение, HM проверява изцяло функцията на Лагранжиан (LCF) [26], като използва всички режими във всяко ниво на дълбочина на кодиране (ниво 64 × 64, 32 × 32, 16 × 16 и 8 × 8 са обозначени като дълбочина ниво 0, 1, 2, 3). LCF, Jn за n-ия режим на избор се дефинира от:

където λ е множителят на Лагранжиан, D е изкривяването и R е полученият бит, който се определя от режимите за CU. За да избере най-добрия режим на разделяне на ниво дълбочина на кодиране, HM проверява минимум 8 (т.е. 64 × 64, 64 × 48, 48 × 64, 64 × 32, 32 × 64, 16 × 64, 64 × 16, и 32 × 32) и максимум 24 режима за предсказване (т.е. подобно разделяне с по-малки блокове от 32 × 32 до 8 × 8) с най-нисък LCF. Този процес отнема изключително много време поради проучването на всички режими в едно или повече нива на дълбочина на кодиране. За разлика от тестовия модел на HEVC (HM12.1) [27], в предложената техника, избраните CU с RDMS се оценяват на движение и компенсират движението с режими в по-високите нива на дълбочина, от друга страна, CU без RDMS се оценяват на движение и движение, компенсирано с режими на по-ниски нива на дълбочина. По този начин можем да избегнем изчерпателно проучване на всички режими във всяко ниво на дълбочина на кодиране. Това води до изчислително намаляване на времето.

По отношение на избора на режим, базиран на HM, забелязахме от уравнение (1), че най-добрият режим, който е избран за дадена стойност на лагранжев множител (т.е. λ), ще бъде различен за другите стойности на този на множителя. По този начин различните мултипликаторни стойности могат да изберат различни най-добри режими в ниво на дълбочина на кодиране за даден параметър на квантуване (QP). Нещо повече, само решението, базирано на LCF, не може да осигури най-доброто представяне на RD в различни оперативни точки на кодиране поради сложни модели на разделяне на CU, заглавки за разделяне и преобразуване на блокове, кодиране на дължината на вектори на движение, разнообразно видео съдържание и други разширени настройки на параметрите в стандарта за кодиране на видео HEVC. Следователно, вместо просто да зависи от съществуващия LCF, в първата фаза, предложената техника се концентрира върху RDMS критерии за подмножина на междумодовия подбор, която е независима от съществуващата LCF. Този брой последователни етапи на предварителна обработка (показани на фигура 1) правят процеса на вземане на решение по-подходящ и по-малко времеемък.

бърз

Предложена техника

Екстракция на функции за движение

Изчисляваме фазовата корелация чрез прилагане на FFT и след това обратно FFT (IFFT) на текущите и референтните блокове и накрая прилагаме функцията FFTSHIFT, както следва:

където Fc и Fr са бързо преобразуваните блокове на Фурие на съответните текущи C и еталонни R блокове, Г е FFTSHIFT, te означава IFFT и ∠ е фазата на съответния преобразуван блок. Имайте предвид, че Ω е двумерна матрица. Оценяваме пика на фазовата корелация (β) от позицията на (dx + μ/2 + 1, dy + μ/2 + 1), както следва:

където размерът на блока, означен с μ, е 8, тъй като ние използваме 8 × 8-пикселен блок за фазова корелация. След това изчисляваме прогнозирания вектор на движение (dx, dy), като изваждаме μ-1 от положението (x, y) на Ω, където намираме максималната стойност на Ω. В процеса на генериране на съвпадащ блок използваме фазата на текущия блок и величината на блока с компенсация на движението в референтната рамка и накрая изчисляваме съответстващия референтен блок (Ѱ) за текущия блок, като:

Сега грешката на изместване (§) се изброява от:

След това прилагаме дискретното косинусно преобразуване (DCT) към грешка § и изчисляваме ECR (т.е. α) като съотношение на нискочестотния компонент и общата енергия на блока с грешки (т.е. съотношение от енергията на горния ляв триъгълник по отношение на за цялата област на енергията) от:

където DEL и DET представляват енергията на горния ляв триъгълник и енергията на цялата площ на даден блок. Имайте предвид, че двете страни на горния ляв триъгълник са три четвърти от размера на блока, т.е. 6 в нашето изпълнение.

Извличане на функцията за забележимост

RDMS категоризация чрез Feature Fusion

След оценка на извлечените характеристики на движението на фазовата корелация (т.е. α, β и (dx, dy) и извлечената карта на вариацията на изпъкналост (т.е. γ), накрая определяме функция на разходите. Разработването на базирана на съдържанието адаптивна претеглена функция на разходите за блок се извършва чрез процес на синтез на характеристиките. Уравнението за функцията на разходите се дава от:

където δ означава размера на блока, а ω1 до ω4 са тежестите с ∑ i = 1 4 ω i = 1. Ние иновативно извличаме тегла за всяка характеристика адаптивно и не разглеждаме всички възможни комбинации от тежести в този експеримент. Ние разглеждаме само тегла от 0,50, 0,25, 0,125 и 0,125 въз основа на относителното отклонение на текстурата на текущия блок спрямо това на целия кадър. За да изчислим отклонението, ние прилагаме стандартно отклонение (STD) както на текущия блок, така и на текущия кадър и използваме тези тегла за четири атрибута. Първо, ние сортираме четири характеристики въз основа на техните стойности и ако стойността на STD на блока е по-малка от стойността на текущия кадър, тогава най-голямото тегло (т.е. 0,50) се прилага към характеристика 1 (т.е. сортирано) и най-ниското тегло (т.е. 0,125) се прилага към характеристика 4 (според сортирания списък); в противен случай се прилага обратно претеглена поръчка. Ако резултантната стойност на разходната функция (т.е.,) е по-голяма от предварително дефиниран праг, блокът се маркира с „1“, иначе с „0“, където „1“ и „0“ съответства съответно на RDMS и не-RDMS.

Рационалността на предложената стратегия за избор на тегло е, че ако текущият блок има по-големи вариации на текстурата в сравнение с текущия кадър, текущият блок трябва да бъде кодиран с повече битове в сравнение с останалите блокове, за да се постигне подобно/подобрено представяне на RD. За да гарантираме изразходването на повече битове, трябва да категоризираме блока като RDMS блок, което се извършва от нашата стратегия за избор на праг. Другият подход за избор на тегло може да работи по-добре, но експерименталните резултати показват, че предложената техника осигурява подобна ефективност на RD.

Фигура 2 демонстрира връзката на количествените характеристики на движение и забележимост с човешките визуални характеристики. Фигура 2B – 2D ) показва категориите на пик на движение (β) и съответните им стойности, предоставени от ECR (в Фигура 2 (E)) и изпъкналост (в Фигура 2 (F) ) за видео за тенис. От фигурата е очевидно, че за α и γ стойностите на сложното движение са най-високи, докато за β сложното движение има множество пикове и стойността му е най-ниската. Приложената GBVS техника създава карти на действителните изпъкналости, базирани на функцията за резултантни разходи. Тези карти се генерират между 11-ти и 12-и кадър на тенис видео за CU на позиции (3, 1), (3, 10) и (5, 7) съответно с неговото отклонение на текстурата, както е илюстрирано в Фигура 3 . От фигурата и експерименталните резултати можем лесно да забележим, че характеристиките α, (dx, dy) и γ имат положителна корелация, а β има обратна корелация, за да посочи човешките зрителни черти. Ние изравняваме сложните текстурни и гладки текстурни области съответно с червеникав и синкав цвят, докато всеки друг цвят съответства на прости текстурни области в Фигура 3 .

г) са фазово изместените графики за движение без движение (0,4), просто движение (0,7) и сложно движение (0,8); (e-f) съответства на съответните стойности, генерирани от ECR и характеристика на видимост за блокове в позиции (3, 1), (3, 10) и (5, 7) съответно.

За ясна визуализация използваме размер на блока 32 × 32.