Намерени в превода
Абонирайте се за Капитал

Всеки петък икономически анализ и коментар на текущите събития от седмицата.
Съдържанието е организирано в три области, за които Капитал е полезен:

K1 Средата (политическа, макроикономическа регулаторна правна)
K2 Бизнесът (пазари, продукти, конкуренция, мениджмънт)
K3 Моят капитал (лични финанси, свободно време, образование, извън бизнеса).

Абонирайте се за Капитал

Намерени в превода

Намерени в превода

Microsoft работи по универсален гласов софтуер, който превежда реч в реално време

Мартин Дешев
8243 прочитания

© Антония Тилева


Езиковата бариера винаги си е оставала изключително сериозно предизвикателство в общуването между хората. Понякога дори и най-рутинни неща, като например купуването на хляб, могат да се окажат сложни, ако се намираме в държава, чийто език няма нищо общо с матерния ни. На помощ, разбира се, отново идват технологиите. Но дори и универсални преводачи като Google Translate могат да доведат до още по-големи проблеми от непознаването на езика, особено ако дадено словосъчетание трябва да се разбира контекстуално.

Именно това е и най-големият недостатък на компютърните преводи. Те не познават метафорите и символиката. За тях всичко е буквално. Това води до смешни ситуации, при които популярни у нас фрази като "направо изби рибата" се превеждат на английски като directly killed fish. Софтуерът не може да разбере както смисъла, така и тона на изказването.

Софтуерният гигант Microsoft обаче работи по решаването на всички тези проблеми. Наскоро компанията демонстрира своя нова разработка в тази насока. Става дума за софтуер, който може да превежда в реално време, като дори се опитва да запазва тона и интонацията на изказването, за да бъде преводът максимално точен и близък до оригинала, съобщава Би Би Си. По време на демонстрацията английска реч беше почти моментално бе преведена на китайски. При това с впечатляваща точност, което провокира аплодисменти сред присъстващите в залата.

По-сложно, отколкото изглежда

Първата демонстрация бе направена в края на октомври т.г. в Китай. Тогава Рик Рашид - човекът, оглавяващ изследователското звено на Microsoft, показа нагледно как работи програмата. Тя може за секунди да "изслуша" и интерпретира говора, да го преведе на избрания език и да го изговори с глас, който е синтезиран така, че да доближава максимално този на първоизточника. Тук постиженията са в две направления. Първо, успешният, почти мигновен превод и, второ, синтезирането на реч, която да е максимално близо до оригиналната.

За момента софтуерът се нуждае от около час "тренировки", за да опознае гласа на събеседника и да се научи да го синтезира в реално време. Това се постига чрез модифицирането на стандартно използван изкуствен говор. Той се променя така, че да наподобява специфичното изговаряне на отделни звуци, което е присъщо за дадения човек. Самият софтуер работи по модела на връзките между мозъчните клетки. Това означава, че когато един елемент от него научи нещо, това променя останалите елементи и така всички взаимно се усъвършенстват. По този начин значително се повишава процентът на точност. "Вместо да греши една дума на всеки четири или пет, сега софтуерът обърква една на всеки седем или осем", казва Рашид в официалния блог на компанията.

Все пак Рик Рашид признава, че технологията е твърде нова и подлежи на сериозно усъвършенстване. "Все още не знаем ограниченията на точността й", казва той в коментар за онлайн изданието Technology Review. "Понякога резултатът е доста хумористичен", добавя изследователят. Технологията все още не е изпробвана с хора извън софтуерния гигант, но всички видели я в действие са доволни от резултатите по време на първата й демонстрация, допълва още той. Според него разработването на софтуер на принципа на невроните е сравнително нов похват, който все още не е разгърнал пълния си потенциал. Това отваря възможности за още много по-сериозни приложения, споделя Рашид.

Технологии от XXII век

За може технологията да превежда толкова добре, са използвани доста иновативни подходи от страна на програмистите на Microsoft. Някои от тях са описани в официалната документация на проекта, която компанията публикува на своя сайт. Превеждането им на разбираем за обикновените хора език също може да се окаже сериозно предизвикателство. Работата на софтуера е разделена на няколко етапа. Първата е "слушането" на говора и разпознаването на думите. След това те се превеждат на съответния език. В случая на демонстрацията това е китайски. В следващата стъпка програмата взима преведените думи и ги нарежда така, че да отговарят на китайския словоред и граматика. Готовият превод се препредава на следващия елемент от софутера – гласовият синтезатор, който го изчита с предварително зададения глас. На по-късен етап ще е възможно синтезаторът автоматично да разпознава гласа и да се модифицира в реално време.

Гръбнакът на технологията отново е онлайн базиран. Благодарение на глобалната мрежа софтуерът може да се свърже с централните си сървъри, които извършват обработката на данните. Без тях програмата не може да направи нищо особено. Именно с тяхна помощ тя извършва целия процес на превода и синтезирането на речта. Компанията обозначава този процес с термина Deep Neural Networks. Той е моделиран на базата на човешкото поведение и е напълно различен от традиционната досега работа на софтуера за гласово разпознаване. Чрез него се намалява времето за обработка на данните с 30%, а грешките спадат с до 20%, твърдят от Microsoft. Този принцип на работа не се нуждае и от неколкократно "слушане" на човешкия глас, за да го научи и да може да се адаптира към него.

Microsoft не са единствените, които работят активно по развитието на подобни технологии. Компанията NTT Docomo например предлага приложение, което позволява на японците да разговарят по телефона с чужденци, като паралелно извършва превод в реално време. Така и двете страни чуват отговора на своя събеседник на собствения си език. Google също експериментира с подобни разработки. Компанията има предимството на свръхуспешната услуга Google Translate, който, макар и сравнително неточен за по-редките езици, дава добри резултати при по-масовите и лесно може да бъде свързан с гласово приложение. Самият Translate също предлага функция за примерен изговор на преведените думи на някои от по-популярните езици, макар и говорът да звучи като стандартна машинна реч.

"Резултатите не са перфектни и има още много работа. Но все пак технологията е много обещаваща и се надяваме, че до няколко години ще имаме системи, които напълно ще разбият езиковите бариери. Няма да чакаме до XXII век, за да имаме еквивалент на универсалния преводач в Star Trek", завършва Рашид.

Езиковата бариера винаги си е оставала изключително сериозно предизвикателство в общуването между хората. Понякога дори и най-рутинни неща, като например купуването на хляб, могат да се окажат сложни, ако се намираме в държава, чийто език няма нищо общо с матерния ни. На помощ, разбира се, отново идват технологиите. Но дори и универсални преводачи като Google Translate могат да доведат до още по-големи проблеми от непознаването на езика, особено ако дадено словосъчетание трябва да се разбира контекстуално.

Именно това е и най-големият недостатък на компютърните преводи. Те не познават метафорите и символиката. За тях всичко е буквално. Това води до смешни ситуации, при които популярни у нас фрази като "направо изби рибата" се превеждат на английски като directly killed fish. Софтуерът не може да разбере както смисъла, така и тона на изказването.


Благодарим ви, че четете Капитал!

Вие използвате поверителен режим на интернет браузъра си. За да прочетете статията, трябва да влезете в профила си.
Влезте в профила си
Всеки потребител може да чете до 10 статии месечно без да има абонамент за Капитал.
Вижте абонаментните планове

3 коментара
  • 1
    diego avatar :-|
    Diego

    Напредват технологиите. Въпрос е на алгоритми. Примерно гласовото търсене в Гугъл дори на български дава доста добри резултати.

  • 2
    patentservice avatar :-|
  • 3
    aheloi avatar :-|
    Храбър

    Сега се сетих за невъзможното за превод "двойно положително отрицание" в българския език:
    " Да, да! "


Нов коментар

За да публикувате коментари,
трябва да сте регистриран потребител.


Вход

С използването на сайта вие приемате, че използваме „бисквитки" за подобряване на преживяването, персонализиране на съдържанието и рекламите, и анализиране на трафика. Вижте нашата политика за бисквитките и декларацията за поверителност. OK