Бюлетин на SLTC, октомври 2011 г.

2011

Общ преглед

Тъй като японският парламент (диета) е основан през 1890 г., дословни записи са били направени с ръчно стенографиране в продължение на сто години. В началото на този век обаче правителството прекрати набирането на стенографи и разследва алтернативни методи (Подобни промени се случиха в много страни през последните десетилетия). Камарата на представителите избра ASR за новата система [1]. Системата е внедрена и тествана през 2010 г. и е в официална експлоатация от април 2011 г. Това е първата система за автоматична транскрипция, внедрена в националните парламенти, с изключение на това, че за чешкия парламент са направени надписи онлайн по телевизията [2].

Новата система обработва всички пленарни сесии и заседания на комисии. Речта се улавя от микрофоните на щанда в заседателните зали. За интерпелатори и министри се използват отделни канали. Независимата от оратора система ASR генерира първоначален проект, който е коригиран от парламентарни репортери. Грубо казано, степента на грешка при разпознаване на системата е около 10%, а несъответствията и разговорните изрази, които трябва да бъдат коригирани, също представляват 10%. По този начин репортерите все още играят важна роля.

Технически предизвикателства и иновации

Изискванията към системата ASR са както следва. Първият е висока точност; над 90% се предпочита. Това може лесно да се постигне на пленарни сесии, но е трудно на заседанията на комисии, които са интерактивни, спонтанни и често нажежени. Второто изискване е бързото обръщане. В Камарата на репортерите се възлага реч за транскрипция в 5-минутни сегменти. ASR трябва да се извършва почти в реално време, така че репортерите да могат да започнат да работят бързо дори по време на сесията. Третият въпрос е спазването на стандартните насоки на стенограмите на Камарата. Това може да се гарантира, като се използват само протоколите от миналото парламентарно заседание за изграждане на лексикон и езиков модел.

За да се постигне висока производителност, акустичните и езиковите модели трябва да бъдат адаптирани към парламентарната реч; тоест те трябва да бъдат обучени с голямо количество съвпадащи данни. За щастие има голямо количество данни за парламентарни заседания. Има огромен архив от официални записи на събранията в текст, възлизащи на 15 милиона думи годишно, което е сравнимо с вестниците. Има и огромен архив на речта на събранието, който възлиза на 1200 часа годишно. Официалните записи на срещите обаче се различават от действителните изказвания поради процеса на редактиране от репортери. Причините за това са няколко: разлики между говоримия стил и писмения стил, явленията на дифузия като пълнители и ремонти, излишък като маркери на дискурса и граматически корекции. В нашия анализ японският език има повече дифузия и излишък, но по-малко граматически корекции, тъй като японският език има относително свободна граматична структура.

От тези причини трябва да изградим корпус от парламентарни заседания, който да се състои от верни преписи от изказвания, включително пълнители, съобразени с официалните записи. Подготвихме този вид корпус в размер на 200 часа в реч или 2,4 милиона думи в текст. Корпусът е жизненоважен за задоволително представяне, но много скъпо. Освен това трябва да се актуализира; в противен случай изпълнението ще се влоши във времето.

За да използваме огромния архив от парламентарни заседания по по-ефективен начин, ние разгледахме нова схема за обучение, като се фокусирахме върху разликите между официалния протокол от събранието и верния препис [1] [3]. Въпреки че има разлики с 13% в думите, 93% от тях са прости редакции като изтриване на пълнители и корекция на дума. Те могат да бъдат изчислително моделирани чрез схема за статистически машинен превод (SMT). Със статистическия модел на разликата можем да предскажем какво се изрича от официалните записи. Чрез прилагане на модела SMT към огромен мащаб от изминалите записи на парламентарните заседания (200 милиона думи в текст за 10 години) се генерира точен езиков модел. Освен това, като съпоставим аудио данните с модела, предвиден за всеки ход на високоговорителя, можем да реконструираме всъщност произнесеното. Това води до ефективно контролирано обучение на акустичния модел, като се използват 500 часа реч, които не са преписани вярно. В резултат на това бихме могли да изградим точни модели на спонтанна реч в Парламента и този модел ще се развие с времето, отразявайки смяната на членовете на парламента и обсъжданите теми.

Внедряване и оценка на системата

Тези акустични и езикови модели, разработени от Университета в Киото, са интегрирани в механизма за разпознаване или декодера на NTT Corporation [4], който се основава на бързия в движение състав на WFST (Weighted Finite State Transducers).

Оценки на системата ASR се провеждат, откакто системата е внедрена през последната година. Точността, определена от коректността на характера в сравнение с официалния запис, е 89,4% за 108 срещи, проведени през 2010 и 2011 г. Когато се ограничи до пленарни сесии, тя е над 95%. Нито една среща не е получила точност под 85%. Скоростта на обработка е 0,5 в реално време, което означава, че отнема около 2,5 минути за 5-минутен сегмент. Системата може също автоматично да коментира и премахва пълнителите, но автоматизирането на други редакции все още е в процес на текущо проучване.

Пост-редакторът, използван от репортерите, е жизненоважен за ефективното коригиране на ASR грешки и почистване на преписи. Проектиран от репортери, той е екранен редактор, подобен на интерфейса на текстовия процесор. Редакторът осигурява лесно препращане към оригиналната реч и видео, по време, по изказване и по характер. Той може да ускори и намали повторението на речта. Страничен ефект от ASR-базираната система е целият текст, реч и видео са подравнени и хипервръзки от високоговорители и чрез изказване. Това ще позволи ефективно търсене и извличане на мултимедийния архив.

За поддръжка на системата ние непрекъснато наблюдаваме точността на ASR и актуализираме ASR моделите. По-конкретно, лексиконът и езиковият модел се актуализират веднъж годишно, за да включват нови думи и теми. Имайте предвид, че нови думи могат да бъдат добавяни от репортери по всяко време. Акустичният модел ще бъде актуализиран след смяната на кабинета или депутатите, която обикновено се извършва след общите избори. Имайте предвид, че тези актуализации могат да бъдат полуавтоматизирани без ръчна транскрипция в нашата леко контролирана схема за обучение. Очакваме системата да се подобри или да се развива с повече натрупани данни.

Препратки

  1. Т. Кавахара. Автоматична транскрипция на парламентарни срещи и лекции в класната стая - устойчив подход и реални оценки на системата -. В Proc. Int'l Sympo. Обработка на китайски говорим език (ISCSLP), стр. 1-6 (основна реч), 2010.
    http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5684907
  2. Филип Юрчичек. Разпознаване на реч за надписи на телевизия на живо. Бюлетин на SLTC, април 2009 г.
    http://www.signalprocessingsociety.org/technical-committees/list/sl-tc/spl-nl/2009-04/tv-captioning/
  3. Ю. Акита и Т. Кавахара. Статистическа трансформация на език и модели на произношение за спонтанно разпознаване на речта. IEEE Trans. Аудио, реч и езиков процес., Том 18, № 6, стр. 1539–1549, 2010.
    http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5340564
  4. T.Hori и A.Nakamura. Генерализиран бърз алгоритъм за композиране в движение за базирано на WFST разпознаване на реч. В Proc. Interspeech, стр.557-560, 2005.
  5. Уебсайт на Intersteno IPRS
    http://www.intersteno.org/

Тацуя Кавахара е професор в Висшето училище по информатика в университета в Киото. Имейлът му е kawahara [at] i [dot] kyoto-u [dot] ac [dot] jp.