Эксперимент продолжается

Общество

21.06.21 16:45 41

Эксперимент продолжается

Ученые утверждают - спектральный состав одного и того же звука, произносимого разными людьми очень разнится, и задача алгоритмов в данном случае - выделить среди множества сигналов отдельные слова и распознать их.

Этим сегодня вплотную занимаются ученые Института информатики и проблем регионального управления КБНЦ РАН, сообщили в медиацентре научного учреждения.

Исследовательская группа, в том числе научный сотрудник Института информатики КБНЦ РАН Ирина Гуртуева, проектирует автоматическую систему распознавания речи на основе принципиально нового подхода.

Ученые работают над двумя главными проблемами - распознаванием голоса в условиях постороннего шума и в условиях, когда несколько человек говорит одновременно.

«Последняя получила свой термин в науке – коктейльная вечеринка. Компьютер, к сожалению, пока не обладает таким потенциалом. Система не может распознавать речь двух рядом стоящих людей и говорящих одновременно. Компьютер не выделяет нужные звуки среди всех остальных, а человек с легкостью справляется с такими трудностями. К примеру, человек, сидящий в зале, обладает уникальной способностью выделить одного индивида, поющего в хоре на сцене и услышать именно его. Эта способность называется эффект направленного внимания, то есть избирательность восприятия речи человеком. Кроме того, перед исследователями стоит задача создания новой акустической модели для фонетики русского языка. Для русской версии недостаточно речевых баз данных. В перспективе - формирование базы с учетом разных акцентов, используемых людьми. Система распознавания речи на основе мультиагентных когнитивных архитектур в настоящее время на стадии проектирования», - объяснили в медиацентре.

По словам исследователей, решение проблемы зависит сразу от нескольких факторов – от тембра звукового сигнала, возраста, пола, других физиологических характеристик речевых аппаратов.

«Например, чем ниже голос человека, тем медленнее он говорит. Эти различия и есть вариативность речи. Она меняется, в зависимости от условий, в которых находится человек в данный момент, а также от акустических особенностей пространства. Причин много, вплоть до настроения говорящего. Неплохих успехов достигли зарубежные ученые в случае с английским и языками германской группы, но опять-таки, в лабораторных условиях. В случае с другими языками автоматические системы еще менее эффективны», - отметил источник.

Группа ученых ИИПРУ КБНЦ уже достигла определенных результатов, и И. Гуртуева говорит об успехах в реализации проекта.

«Создан фонетический алфавит с учетом вариативности разной природы. Удалось зафиксировать вариативность, обусловленную позицией звуков внутри слова. Здесь исследуется влияние ударного и безударного положения звука внутри слова на особенности его произнесения. Вторая позиция - мы зафиксировали в экспериментах вариативность фонетического контекста влияющего на артикуляцию речевых звуков. И, наконец, подготовили речевые данные для исследования индивидуальных характеристик говорящего», - цитирует медиацентр И. Гуртуеву.

Сделать речевые системы универсальными сегодня стремятся крупные фонетические школы Москвы и Санкт-Петербурга, исследователи таких крупных компаний как «Яндекс» и «Сбер». На Северном Кавказе решением этих задач занимаются только в ИИПРУ КБНЦ РАН.

Поделиться новостью