Тенденции сектора голосовых технологий

Содержание:

Благодаря скромному началу системы Audrey, созданной Bell Labs в 1952 году, которая могла распознавать только произносимые вслух цифры, человек продолжает развивать голосовые технологии. Ключевым фактором, который способствует распространению Voice ИИ, стал Интернет вещей (IoT), соединяющий миллиарды физических устройств для удобства людей.

Растущая популярность интернета вещей и современные технологии ИИ порождают новую экосистему компаний в текущем и пост-COVID мире. Это приводит к усиленному вниманию за стратегиями конфиденциальности и монетизации, которые используют частные данные потребителей.

Тем не менее голосовой искусственный интеллект вызывает некоторые опасения. Шошана Зубоф, профессор Гарвардской школы бизнеса, называет голосовые технологии «капитализмом наблюдения» и утверждает, что устройства с поддержкой голоса и ИИ, среди других инструментов сбора данных, приводят к «единому голосу»: который предоставляет своему оператору «способность предвидеть и монетизировать желания людей».

Таким образом, в основе прорыва сектора голосовой аналитики лежат две основные тенденции, а именно:

  • внедрение IoT и облачных технологий, использующих ИИ и машинное обучение;
  • достижения в психолингвистической аналитике данных.

Как голосовые технологии обогащают жизни людей?

СМИ, влиятельные лидеры технологической индустрии и правительства продолжают вести дискуссии об ИИ и его влиянии на человечество. Однако сложно не замечать важность голосовых технологий в симбиозе с искусственным интеллектом, а также то, как это обогащает жизнь потребителей.

Пока что голосовые технологии подарили людям такие основные преимущества, которые будут активно развиваться в будущем:

  • домашнюю автоматизацию;
  • упрощенный режим ввода текста при помощи голоса;
  • умных голосовых ботов для поддержки и обслуживания клиентов.

Прогнозируется, что к 2022 году объем голосовых покупок вырастет до 40 миллиардов долларов. Последнее исследование показывает, что почти три четверти людей, владеющих устройствами с распознаванием речи, отмечают их незаменимость в повседневной жизни.

В будущем завоевание доверия потребителей станет первостепенной задачей. Поэтому получат конкурентное преимущество те корпорации, которые активно начнут внедрять Privacy by Design, чтобы гарантировать защиту личной информации в системах, работающих на голосовых технологиях.

Кроме того, более широкое внедрение Edge Computing и развертывание сетей 5G резко изменит доступность продуктов с поддержкой голосовой связи. Поскольку эти достижения приведут к тому, что данные, генерируемые устройствами IoT с поддержкой голоса, будут обрабатываться в самом источнике.

Голосовые технологии меняют бизнес

В то время как аудио- и видеочаты для деловых встреч уже набирали популярность в последние несколько лет 10, коронавирус ускорил их использование. Рассмотрим следующую ошеломляющую статистику: 200 миллионов участников совещаний Microsoft Teams взаимодействовали за один день в апреле 2020 года и сгенерировали более 4,1 миллиарда минут совещаний.

Чат-боты с голосовой поддержкой используются центрами обработки вызовов в целях повышения эффективности, и нынешние условия гарантируют, что эти цифровые технологии вполне могут заменить задачи, которые выполняют люди.

В других областях взаимосвязь между обработкой естественного языка (NLP) и искусственным интеллектом размывает границы между людьми и технологиями. Например, врачи все больше полагаются на использование ИИ, который преобразует диктуемые голосом клинические записи в понятные для машины электронные медицинские показания. В сочетании с анализом диагностических изображений это может значительно упростить диагностику неврологических и кардиологических заболеваний, раковых опухолей.

Тенденции сектора голосовых технологий

Достижения в психолингвистике с ИИ и машинным обучением

Изучение и применение человеческой речи резко выросло благодаря интеграции компьютерной лингвистики с аффективными вычислениями благодаря технологиям AI и ML. Компании и исследователи разрабатывают новые масштабируемые подходы для автоматического распознавания речи.

Например, Google использовала нейросетевые языковые модели, методы лингвистики и экспериментальной психологии в сочетании со строгим анализом данных, чтобы создать платформу анализа речи. Она расшифровывает аудио и отображает его данные с помощью инфографики. Любой звонок разбирается по ключевым показателям, которые включают продолжительность и тональность.

Потенциальными лидерами использования голосовых технологий являются медиа и сектор развлечений. Они уже подготовили потребителей к тому, какой может быть реальность в будущем, продемонстрировав цифровых помощников на основе искусственного интеллекта, заменяющих живых разумных существ.

В квазиреальном художественном фильме «Она» встреча Хоакина Феникса с голосовой помощницей Самантой удовлетворяет его человеческую потребность в общении. Этот контекст кажется весьма применимым к тому, что человечество в настоящее время сталкивается с социальным дистанцированием и изоляцией, вызванными коронавирусом.

С технологической точки зрения алгоритмы ИИ составляют основу «человечности» Саманты, поскольку она анализирует речь, эмоции и намерения. Эти же алгоритмы ускоряют внедрение потоковых сервисов. Инвестиции в контент ведущих компаний этой индустрии: Netflix, Amazon Prime и Disney +, а также хорошо финансируемые стартапы, такие как HBO Go и Quibi, отлично подходят для использования AI и ML, построенных на основе голосовой аналитики.

Исследования в области голосовых технологий

Академические исследования стали плодородной почвой для объединения НЛП, ИИ и психолингвистического анализа данных для бизнес-приложений. Например, Дебора Эстрин, профессор Корнеллского технологического института, получившая в 2018 году грант Макартура «гений», изучает, как можно измерить подкасты, чтобы прогнозировать их популярность.

Ставки на голосовую аналитику в быстро развивающемся секторе велики. В 2019 году подкасты принесли 700 миллионов долларов дохода от рекламы. В то время как Spotify потратил 250 миллионов долларов на расширение аудиоконтента в 2019 году.

Лайл Ангар из Пенсильванского университета и его сотрудники просматривали миллионы сообщений в социальных сетях с аудио контентом, чтобы идентифицировать разные сигналы звука с помощью машинного обучения. Таким образом они пытались структурировать язык и типы используемых слов, которые могут указывать на психическое расстройство или когнитивные проблемы.

Это поможет использовать ИИ и голосовые технологии для раскрытия финансовых преступлений, управления рисками клиентов и снижения затрат на ведение бизнеса.

Голосовой анализ функциональных слов — местоимений, артиклей, предлогов, союзов и глаголов, которые являются соединительной тканью языка, предлагает глубокое понимание честности и самоощущения человека. Это позволяет узнать его эмоциональное состояние, тип личности, возраст и социальный класс.

Новые методы изучают, как произносятся слова, и рассматривают нефункциональные слова, например вокальные всплески для идентификации эмоции. Свидетельством важности связи между ИИ и поведением потребителей является исследовательская инициатива в области технологий и поведенческой науки в школе Wharton.

Универсальный переводчик

Голосовые технологии могут расшириться до такой степени, что появится универсальный переводчик, которые будет охватывать сотни языков мира, включая местные диалекты.

Это направление имеет огромный потенциал, поскольку открывает новые горизонты для потребителей.

Уже сейчас существует Microsoft Translator с расширенными возможностями искусственного интеллекта и глубокими нейронными сетями. Представители компании объявили, что в скором времени программа будет предлагать перевод в реальном времени на пять дополнительных индийских языков. В результате этого общее количество языков достигнет десяти, что позволит 90% индийцам получить доступ к информации на своих предпочтительных языках.

Универсальный переводчик, впервые описанный в романе Мюррея Ленстера «Первый контакт», вполне может стать реальностью.

Традиционной проблемой для нишевых языков было отсутствие адекватного набора данных для обучения платформ искусственного интеллекта. Новые методы, технологии и психолингвистика позволяют редким языкам не иметь такого количества формальных лингвистических инструментов, чтобы быть исследованными. Например, Рочестерский технологический институт использует искусственный интеллект с глубоким обучением для создания аудио- и текстовой документации на языке индейцев сенека, на котором свободно говорят менее 50 человек.

Однако точность идентификации произносимого требует постоянных инвестиций в репрезентативные наборы данных, модели и технологии искусственного интеллекта. Как показывают исследования, распознавание речи Google имеет уровень точности 78% для индийского английского и 53% для шотландского английского языка. Кроме того, голосовой поисковик на 13% точнее определяет запросы мужчин, чем женщин.

Искусственный эмоциональный интеллект

Прогнозируется, что голосовые технологии станут главным инструментом в области искусственного эмоционального интеллекта и позволят более детально изучить человеческие эмоции. Поскольку голосовая среда становится естественным способом взаимодействия для людей, это приведет к улучшениям в измерении намерений с помощью распознавания голоса и голосовой аналитики.

Рынок эффективных вычислений, по оценкам, вырастет до 41 миллиарда долларов к 2022 году. Вклад в развитие ИЭИ приведет к переходу от взаимодействий с высоким уровнем интеллекта, основанном на данных, к глубокому опыту, опирающемуся на эквалайзер эмоций, что даст брендам возможность общаться с клиентами на гораздо более глубоком и личном уровне. Точность обнаружения человеческих чувств значительно улучшится.

Ожидается, что AEI будет сочетать голос с визуальными и биометрическими датчиками, а также другими данными для поддержки приложений эмоционального ИИ. Они, в свою очередь, будут предлагать лучшее обслуживание клиентов.

Понимая важность голосового искусственного интеллекта, его аналитики, влияния, рисков и возможного направления в будущем, можно более широко воспринимать картину цифровых инноваций в целом. Современные технологии ИИ на базе голоса могут предложить множество преимуществ обществу и бизнесу, но требует внимательного отношения к связанным с этим негативным последствиям.

В более широком смысле искусственный интеллект восприятия, который охватывает весь сенсорный спектр, включая зрение, обоняние и осязание в дополнение к голосу, может привести к более гуманизированным технологиям, которые кардинально изменят то, как компании и потребители взаимодействуют с продуктами.

Хотите стать разработчиком программного обеспечения? Регистрируйтесь на курсы от DevEducation.

Присоединяйся к DevEducation — стань востребованным специалистом и построй карьеру в IT!