многоезични

Приложимост на TAR към азиатски и многоезични набори от данни

Тъй като броят на трансграничните правни въпроси с данни, произхождащи от Азия, се увеличава, юридическите екипи все повече се стремят към технологично подпомаган преглед (TAR), известен също като предсказващо кодиране, за да автоматизират части от ранните си разследвания, скъпи и често склонни към грешки прегледи на документи за производство и други критични дейности.

Когато съдържанието на ESI включва китайски, японски и корейски (CJK) езици, сложността на използването на съединения за предсказуемо кодиране. Предизвикателството не е разбирането на самия език; повечето технологии не се опитват да обработват езика като хората. Основните предизвикателства са технологични. Много кодиращи и файлови формати все още са слабо обработени в традиционните набори от инструменти в САЩ, патентованият софтуер все още изобилства и много TAR решения все още „превеждат“, преди да индексират и категоризират. Отвъд основните технически предизвикателства са езиковите и културни сложности, но това са теми за друг ден.

В предишни публикации с моите колеги обсъждахме събирането, обработката и търсенето на ESI съдържание, съдържащо азиатски и многоезични набори от данни. Но какво ще кажете за TAR? Работят ли инструментите на TAR в многоезични случаи, и по-специално при CJK?

Ето няколко неща, които юридическите екипи трябва да знаят:

  1. Данните от CJK трябва да бъдат обработвани софтуер, предназначен за точно и пълно извличане на съдържание от хора с опит и опит в обработката на данни от CJK.

В дискусиите по ТАР хората често използват израза „боклук навътре, боклук навън“. Този израз почти универсално се отнася до последователността и коректността на човешкото кодиране, използвано за обучение на система TAR. Изразът е още по-фундаментално приложим, когато се отнася до обработка на данни преди TAR да започне. Ефективността на TAR неизбежно се ограничава от точността и пълнотата на обработваните данни. Формулирана по различен начин, най-съвършеният експерт по предмет не може ефективно да обучи TAR система, която разчита на непълни или неточни данни.

Проблемите с обработката приемат различни форми, но няколко лесни стъпки ще ви помогнат да избегнете увреждане на резултатите си от TAR. Неефективната обработка на данни в CJK може да генерира изкривен текст, метаданни може да липсват или инструментът за обработка може просто да не разпознае файла и да изведе неправилни грешки. Екипите по делата могат да намалят риска от увреждане на резултатите от ТАР, като предприемат няколко лесни стъпки. Първо, потвърдете, че използваният инструмент за обработка поддържа събираните формати на файлове и кодиране. Технологичният екип по даден случай трябва да може лесно да потвърди, че софтуерът им поддържа набор от данни. Поддържаните формати обикновено се публикуват от доставчиците на софтуер и са налични. Второ, работете с технологичен екип, който знае какво да очаквате. Технологичен екип, нов за конкретен файлов формат, няма да знае какви метаданни трябва да бъдат извлечени, как тези данни се извличат или дали в системата липсва ключова информация. Опитът и експертните познания са трудни за замяна, когато екип от случаи се справи с ново предизвикателство като многоезична обработка на данни.

Забележка: Предишна публикация адресира теми, водещи до точката на обработка и свързани с индексиране за търсене.

  1. Наличните TAR решения обработват различните езикови набори от данни по различен начин.

Не всички модели за извличане на информация и категоризация са създадени еднакви. Как основният алгоритъм във всяка система събира информация за документи и ги категоризира, може значително да повлияе на крайната ефикасност на вашите усилия за ТАР. Някои системи например присвояват „тежести“ на концепции във всеки документ и в общите популации на документи. Неанглийските думи могат да бъдат подценявани (по-малко влиятелни при категоризирането) в даден модел, ако общото разпространение на документите, съдържащи езика, е ниско. Важно е да разберете - поне концептуално - как избраната от вас система идентифицира концепции и категоризира вашите данни.

Ранните и директни дискусии с вашия доставчик на технологии ще ви помогнат да избегнете лоши резултати (и увеличените разходи, които ги съпътстват) в дългосрочен план.

  1. TAR предлага същите предимства в случаите с едноезични и многоезични набори от данни, а ЛКД може да бъде особено изгодна.

Повечето западни инструменти за ТАР се „учат“ от примерни данни за обучение, предоставени от опитни адвокати или експерти по предмета. След това инструментът използва морфологичен анализ и статистически алгоритми, за да намери подобни документи в останалата колекция от документи. Тези общи истини важат и за многоезичните набори от данни.

Моделите за непрекъснато активно обучение (CAL, известен също като TAR 2.0) поддържат начина, по който работят повечето юридически екипи днес. Екипите могат да използват известна информация - получена от техния клиент или по друг начин - за да намерят ключови документи по-рано и органично да подобрят обучението на системата. Тези системи обикновено са достатъчно податливи, за да поддържат паралелно (или офсетно) обучение по въпроси или на конкретни езици.

Гъвкавостта при работа в паралелни потоци, като непрекъснато се подобряват резултатите от ТАР, е особено ценна в трансграничните случаи. Данните, свързани с различни правни въпроси, могат да бъдат географски дискретни и съответните експерти може да се наложи да работят паралелно. Това не е предизвикателство в повечето системи за ЛКД. Екипът на делото може да има експерти по темата с различни езикови умения, обхващащи часовите зони. Също така обикновено не е проблем. Гъвкавият характер на обучителния модел е благодат за екипи с разлики в географското местоположение, владеенето на езика или познанията по предмета.

Накратко:

TAR дава големи обещания. Днес той се прилага успешно в много контексти и неговата приложимост не познава географска граница. Системите TAR елиминират основни предизвикателства като несъответствие между хората, ограничаване на производителността и астрономическите разходи, често свързани с ръчния преглед. Приложен правилно, TAR позволява на юридическите екипи да се съсредоточат върху стратегията за съдебни спорове, осигурява ранен достъп до ключови документи и помага на екипите да получат информация, която по друг начин би могла да бъде недостижима или неясна. Тези предимства се прилагат еднакво в случаи, включващи CJK или други езици - ако вашият технологичен екип разбира предизвикателствата и има експертизата да се справи с тях.

Водени от ориентирана към услуги култура, която продължава да се стреми по-високо и по-ярко да развива водещи технологии и да предлага на пазара най-добрите услуги, създавайки огромна стойност за нашите клиенти, служители, потребители и акционери.

FRONTEO USA, Inc. (Централен офис) 777 Трето авеню, 17-ти етаж Ню Йорк, Ню Йорк 10017 Офис: (866) 803.7668 Факс: (866) 488.1032

Водени от ориентирана към услуги култура, която продължава да се стреми по-високо и по-ярко да развива водещи технологии и да предлага на пазара най-добрите услуги, създавайки огромна стойност за нашите клиенти, служители, потребители и акционери.