Преглед на Watson Speech to Text: Най-добрата услуга за транскрипция с голям обем?

Уотсън е компютърната система за обработка на естествен език на IBM. Той задвижва известния суперкомпютър с отговори на въпроси, както и поредица от корпоративни продукти, базирани на AI, включително Watson Speech to Text. В нашия преглед на Watson Speech to Text ще разгледаме едно от най-добрите приложения за реч в текст наоколо, идеално за всеки, който иска да конвертира аудио в текст в мащаб.

Платформата за обработка на реч Watson е достъпна в IBM Cloud. Това е гъвкав инструмент и може да се използва в много контексти, включително диктовка и транскрипция на конферентен разговор. Нещо повече, за разлика от повечето други приложения за реч в текст, той се предлага като API, което позволява на разработчиците да го вграждат в системи за гласов контрол, наред с други неща.

Реч в текст на Уотсън: Планове и цени

Можете да използвате Watson Speech to Text, за да обработвате до 500 минути аудио безплатно на месец. Ако искате да конвертирате повече от това, ще трябва да платите за всяка аудио минута и скоростта се променя въз основа на продължителността на обработения аудио. Разходите варират от 0,01 до 0,02 щатски долара на минута и има допълнителна такса от 0,03 долара на минута, ако имате нужда от персонализиран езиков модел на IBM. Предлагат се и премиум планове на Уотсън само с оферти, които предоставят достъп до подобрени функции за поверителност на данните и гаранции за ъптайм.

Услугата на Watson за реч в текст се определя въз основа на обема на съдържанието, което трябва да транскрибирате.

Можете също така да получите достъп до системата Watson Speech to Text чрез абонамент за обща употреба на IBM Cloud. Обработката на естествен език е само едно приложение в широк спектър от услуги за изкуствен интелект, които можете да получите чрез IBM Cloud, така че това е добра опция за всяка организация, която се нуждае от достъп до високоскоростни трансфери на данни, чат ботове или инструменти за преобразуване на текст в реч.

Уотсън Реч в текст: Характеристики

Благодарение на гъвкавата интеграция на API и други предварително изградени инструменти на IBM, услугата за разпознаване на реч Уотсън надхвърля основната транскрипция. Ако искате да го използвате в контекста на обслужване на клиенти, например, Watson Assistant може да бъде настроен да обработва директно въпроси на естествен език или да отговаря на запитвания по телефона.

Във Уотсън IBM създаде богата на функции платформа за обработка на естествени езици.

Уотсън работи с аудио на живо на 11 езика и може да импортира звуци в различни предварително записани формати. При поточно предаване диагностичната поддръжка в реално време означава, че Уотсън може да подкани потребителите да се приближат до микрофона си или да променят средата си. Впечатляващ е и фактът, че Уотсън може да прави разлика между различни говорители в споделен разговор благодарение на Speaker Diarization, функция, която все още е в процес на бета тестване.

Уотсън Реч в текст: Настройка

За да използвате Watson, първото нещо, което трябва да направите, е да създадете акаунт в IBM Bluemix. Регистрацията е безплатна и безболезнена, изисква само имейл адрес и парола. След като влезете, трябва да добавите разпоредба във вашия акаунт за услугата Speech to Text. На този етап ще ви бъдат дадени няколко идентификационни данни, които трябва да запазите в собствените си записи.

Регистрирането за акаунт в IBM Bluemix е необходимо, за да получите достъп до пълния набор от функции на Уотсън.

След като направите това, нещата стават значително по-сложни. За да осъществите достъп до Watson, ще трябва да добавите тези идентификационни данни към партида клиентски код за унифициран локатор на ресурси (cURL) и след това да го стартирате на вашата машина. За да разберете точно коя команда да се обадите, разгледайте това удобно ръководство. Като алтернатива, ако просто искате да видите колко добре работи системата Уотсън, без да се налага да прескачате всички тези обръчи, вместо това можете да я изпробвате на демонстрационния сайт на IBM.

Уотсън Реч в текст: Интерфейс

За разлика от приложенията за глас към текст, насочени към потребителите, услугите на Уотсън са проектирани да бъдат достъпни чрез API и код, вградени в други системи. Поради тази причина няма истински „интерфейс“ на Уотсън. Вместо това, Уотсън може да бъде достъпен чрез три различни интернет протокола. Това са WebSockets, REST API и Watson Developer Cloud.

Watson Speech to Text може да се управлява чрез облачната система Watson Developer Cloud.

За да контролирате Уотсън, ще трябва да използвате инструмент за команден ред, който се свързва с облака на IBM по един от тези три маршрута. Интерфейсът, който крайният потребител, взаимодействащ с Уотсън, вижда, ще трябва да бъде изграден от някой от вашия екип за разработка отделно.

Уотсън Реч в текст: Изпълнение

Като цяло бяхме впечатлени от начина, по който тази платформа за обработка на естествен език обработва реална реч. Използвахме Уотсън, за да транскрибираме клипове, които сме записали в редица предизвикателни среди, както и саундбайтове на известни речи, изнесени на няколко от 11-те поддържани езика на Уотсън.

Установихме, че Уотсън се представя добре с предварително записана реч.

Въпреки че грешките зачестяват за клипове с много фонов шум, като цяло Уотсън дава невероятно точни резултати. Ние бихме изчислили от нашите тестове, че непреднамерени грешки се случват средно само веднъж на всеки 150 думи. Стана ясно обаче защо функцията за диаризиране на високоговорители на Уотсън остава в БЕТА тестването, тъй като няколко пъти по време на нашата оценка един глас бе погрешно обозначен като отделни високоговорители.

Уотсън Реч в текст: Поддръжка

Ресурсният център на IBM предлага изобилие от документация, за да разберете по-добре как да приложите Watson към конкретния ви случай на употреба. Също така си струва да се използват API-интеграциите и SDK, създадени от общността на разработчиците на Watson и публикувани в GitHub.

Страницата на Watson API GitHub е добър източник на поддръжка за услугата Watson Speech to Text.

Ако не намерите решението на проблема си там, можете да се свържете директно с IBM, като отворите билет за поддръжка или се свържете с тях по телефона. Докато сте избрали един от първокласните пакети на Watson, използването на Watson ще бъде защитено от споразумение за Uptime на ниво на услугата.

Реч в текст на Уотсън: Окончателна присъда

Ако вашата организация разполага с ноу-хау и ресурси за правилно интегриране на платформата IBM Watson Speech to Text във вашата система, ще се възползвате от разширени функции като диагностика на звукова среда в реално време и междинни резултати от транскрипция. Малкият бизнес и организации обаче ще се борят с техническото предизвикателство да настроят правилно Уотсън.

Състезанието

Услугата IBM Watson Speech to Text е пряк конкурент на услугите за групово транскрибиране Google Cloud Speech-to-Text и Amazon Transcribe. И двете са значително по-евтини от Уотсън, като например транскрипцията на Google Cloud започва от 0,006 долара на минута. И трите услуги споделят сходни функции, като персонализиран речник, но една функция, която силно липсва на IBM Watson, но е достъпна и при двамата конкуренти, е автоматичното разпознаване на пунктуацията.

Търсите друго решение за препратка към текст? Вижте нашето най-добро софтуерно ръководство за реч в текст.

Интересни статии...