Статья

Распознавание голоса: первые шаги в массовом бизнесе

Интернет Наука Бизнес Техника Цифровизация Инфраструктура Бизнес-приложения Веб-сервисы

Старая идея заставить технику научиться распознавать человеческий голос, кажется, начинает воплощаться. По оценкам экспертов, рынок подобных решений в 2002 году достиг 695 млн. долл., что на 10% выше показателей предыдущего, 2001 года. Примечательно, что отечественные компании также завоевали место на этом рынке и с успехом теснят своих заокеанских конкурентов-разработчиков. Программа Speereo™ Voice Organizer небольшой санкт-петербургской фирмы номинирована как лучший речевой продукт 2002 г. авторитетным американским журналом Pocket PC Magazine — впервые было достигнуто качество распознавания речи, которое оценивается в 99,9%.

В свое время компания Lernout&Hauspie разработала неплохую технологию распознавания голоса под названием Dragon. Однако в 2000 г. компанию постигло банкротство, и после громкого скандала технология Dragon в 2001 г. была продана компании ScanSoft. Затем последовали попытки использовать программу распознавания голоса в коммерческих целях: пробовали продавать голосовую рекламу по телефону. Однако дело не пошло.

И вот теперь технология распознавания голоса обретает новое поприще. Множество компаний используют ее для снижения издержек и увеличения эффективности своего бизнеса. И речь идет не только о голосовом наборе текста вместо клавиатуры.

Вот несколько примеров использования этой технологии в США.

Риэлтеры часто обращаются к услугам компании Newport Wireless. Когда они проезжают на машине по улице и видят возле какого-нибудь дома табличку «Продается», они звонят в Newport Wireless и запрашивают сведения о доме с таким-то номером, находящемся по такой-то улице. Автоответчик приятным женским голосом рассказывает им о метраже дома, дате постройки и владельцах. Вся эта информация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата — около $30 в месяц.

Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 г. Она сообщает по телефону о расписании поездов, об их прибытии и отправлении, а также производит бронирование билетов. Руководство Amtrak надеется, что Джули в мае возьмет на себя также и продажу билетов по кредитным картам. Джули — это продукт компании SpeechWorks Software и Intervoice Hardware. Она уже увеличила показатель удовлетворенности пассажиров на 45%, и вот уже тринадцать из пятидесяти клиентов получают всю нужную информациюиз «уст» Джули, прежде чем начать названивать в билетную кассу. Раньше компания Amtrak использовала тоновую систему справки, однако показатель удовлетворенности был тогда меньше: всего девять клиентов из пятидесяти.

В Amtrak признаются, что свою цену ($4 млн.) Джули окупила за двенадцать-восемнадцать месяцев. Она позволила не нанимать на работу целую команду настоящих агентов. В это же время British Airways экономит полтора миллиона долларов в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.

Недавно Sony Computer Entertainment America представила на рынке Socom: первую видеоигру, в которой игроки могут отдавать устные приказы бойцам из «Deploy grenades». Игра стоит $60. В ней использована технология ScanSoft. В прошлом году было продано 450000 таких игр, что сделало Socom безусловным лидером продаж компании.

В дорогих автомобилях от Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает использоваться и в машинах среднего класса. Так, в 2003 г. Honda Accord будет иметь встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за $2000. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord остановила свой выбор на модели с голосовой системой навигации.

Даже в медицине технология распознавания голоса находит себе место. Уже разработаны аппараты осмотра желудка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще не совершенны, у них замедленная реакция на приказы врача. Однако, все еще впереди.

В Мемфисе VA Medical Center вложил $277 тыс. в программу Dragon, позволяющую врачам и медсестрам надиктовывать информацию в базу данных компьютера. Вероятно, скоро многие позабудут, что такое «медицинский почерк» в карте болезни.

Уже сотни крупных компаний используют технологию распознавания голоса в своей продукции или услугах. Среди них AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии в 2002 г. достиг порядка $695 млн., что на 10% выше предыдущего, 2001 г.

Примечательно, что отечественные компании также завоевали место на этом рынке и с успехом теснят своих заокеанских конкурентов-разработчиков. Так, программа Speereo™ Voice Organizer санкт-петербургской фирмы «Титан Информационный Сервис» номинирована как лучший речевой продукт 2002 г. авторитетным американским журналом Pocket PC Magazine. В том же, 2002 г. компания участвовала в III Российской венчурной ярмарке.

Столь значительных успехов петербургской фирме позволили добиться отечественные программисты-математики. В разработках и созданных на их основе продуктах использует ряд оригинальных алгоритмов, основанных на сложных математических моделях. Примечательно, что некоторые из ее продуктов уже обеспечивают обратный перевод с голоса, то есть распознавание не только английских фраз, а достигнутое качество распознавания речи оценивается в 99,9%.

Источник: использованы материалы FORBES

Игорь Тишкин / CNews.ru