Повечето европейски езици са заплашени от "дигитална смърт", алармира ново изследване на водещи европейски технологични експерти.
След оценка на
състоянието на езиковите технологии за 30 от близо 80-те езика,
които се говорят в Европа, експертите са заключили, че езиковите технологии за 21 езика или "са недоразвити", или са "слабо развити".
Проучването е проведено от Европейската мрежа за върхови постижения META-NET, в която членуват 60 изследователски центъра от 34 страни, сред които е и Институтът за български език "Проф. Любомир Андрейчин", съобщават от БАН.
Изследването, което е обобщено в 30 "бели книги" на различните езици, използва четири различни категории: автоматичен превод, обработка и синтез на реч, анализ на текст и общо състояние на езиковите ресурси.
В поне една от тези категории 21 от 30-те езика (70%) получават най-ниската оценка (т.е. за тях липсват езикови технологии или съществуващите технологии са недоразвити). За българския език категорията със слаба оценка е автоматичният превод.
Няколко езика, сред които исландски, латвийски, литовски и малтийски, получават най-ниска оценка и в четирите категории.
Състоянието на наличните езикови ресурси и технологии
не е оценено като "отлично" за нито един език
Все пак ресурсите за английски получават висока оценка, след това се нареждат холандски, френски, немски, италиански и испански език, които са оценени като "средно развити".
Технологиите и ресурсите за езици като баски, български, каталунски, гръцки, унгарски и полски са категоризирани като "фрагментарно развити", което означава, че са сред езиците с висок риск от отмиране в дигиталната епоха.За момента българският език, получил средна оценка в категориите обработка на реч, анализ на текст и общо състояние на езиковите ресурси, не е застрашен, но ситуацията би могла да се промени значително с навлизането на ново поколение технологии, използващи наистина ефективно естествените езици.
"Резултатите от анализа са силно обезпокоителни. По-голямата част от европейските езици не разполагат с достатъчно адекватни ресурси, които да гарантират оцеляването им в епохата на развити технологии, а при някои езици дори нуждата от такива ресурси не е била осъзната. Поради тази причина и бъдещето на много от европейските езици е неясно", казва проф. Ханс Уцкорайт, координатор на инициативата META-NET, научен директор на Германския център за проучване на изкуствения интелект (DFKI) и един от авторите и редакторите на изследването.
"Пропастта между т. нар. "големи" и "малки" езици
продължава да се разширява. Трябва да положим усилия, за да осигурим адекватна технологична подкрепа за всички по-малки езици, за които липсват нужните ресурси и технологии. В противен случай те за застрашени от дигитална смърт", предупреждава друг от авторите - Георг Рем.
Под езикови технологии най-общо се разбира софтуер, който може да обработва говорима и писмена човешка реч.
Добре познати приложения на такъв софтуер са програмите за правописна и граматична корекция и за синтез на реч, интерактивните лични асистенти на смартфоните (например Siri за iPhone), диалоговите системи за обработка на въпроси по телефона, системите за автоматичен превод, уеб търсачките, както и синтезаторите на реч в навигационните системи за автомобили.
Съвременните системи, базирани на езикови технологии, разчитат предимно на статистически методи, които изискват голям обем данни от писмена и устна реч.
За езици със сравнително малък брой носители необходимият обем езикови данни се набира трудно - българският език например е в незавидна ситуация в сравнение с езици като френски, който се използва от цялата френскоговоряща общност по света.
Освен това при компютърните системи, които се базират на статистическа обработка на езика,
качеството на генерираните данни не е задоволително,
както се вижда от грешните преводи, които предлагат онлайн системите за машинен превод.
Повечето познати системи обаче са изградени около и/или са насочени към английски и поддържат превод от и на малко други езици, а и няма унификация, така че се налага потребителите да усвоят различни методи за работа с различните системи.
За разработването на езикови технологии за останалите езици не са били поемани нито политически, нито финансови ангажименти и липсва ясна изследователска и технологична визия за развитие.
Белите книги на META-NET, издавани в серията "Езиците в европейското информационно общество" (Languages in the European Information Society), предлагат анализ на достъпа до езикови технологии за 30 европейски езика и хвърлят светлина върху най-непосредствените рискове и възможности за развитие.
Книгите в серията представят всички официални езици на страните членки на ЕС, както и няколко други езика, които се говорят на територията на Европа.
Следните европейски езици имат своя "бяла книга": баски, български (вж. в PDF формат), каталунски, хърватски, чешки, датски, холандски, английски, естонски, фински, френски, галисийски, немски, гръцки, унгарски, исландски, ирландски, италиански, латвийски, литовски, малтийски, норвежки (букмол и ниноршк), полски, португалски, румънски, сръбски, словашки, словенски, испански и шведски. Бялата книга за всеки език е изготвена на съответния език и включва превод на английски.
* Моля, коментирайте конкретната статия и използвайте кирилица! Не се толерират мнения с обидно или нецензурно съдържание, на верска или етническа основа, както и написани само с главни букви!