«Яндекс» разрабатывает общую нейросеть для речи и текста

«Яндекс» разрабатывает новую нейросетевую модель под названием SpeechGPT и ищет инженера в области машинного обучения для этой команды

«Яндекс» разрабатывает общую нейросеть для речи и текста

Максим Блинов / РИА Новости

На это обратил внимание «Коммерсант», изучая раздел вакансий компании.

Эта мультимодальная модель будет способна обрабатывать различные типы данных, такие как текст и звук, и отвечать на них в обеих формах, решая задачи на пересечении текста и аудио. В компании отметили, что ведутся работы по мультимодальности для ассистента «Алиса» и других сервисов, но комментариев о модели SpeechGPT не предоставили.

Некоторые сервисы «Яндекса» уже поддерживают различные виды вводных данных. Например, с «Алисой» можно общаться как голосом, так и текстом. В декабре 2023 года был создан отдельный раздел сайта для текстового чата с «Алисой». В конце мая «Яндекс» расширил возможности сервиса Yandex SpeechSense, добавив поддержку текстовых сообщений к его изначальным функциям анализа работы колл-центров. Сервис «Нейро» уже может обрабатывать одновременно текст и изображения.

Однако, как объясняет сооснователь Just AI Кирилл Петров, есть разница между мультимодальным пользовательским опытом и мультимодальностью самой модели. В первом случае данные обычно переводятся из одной формы в другую: например, в голосовом ассистенте речь сначала преобразуется в текст одной моделью, затем текст анализируется другой моделью, и, наконец, текст ответа преобразуется обратно в речь третьей моделью. Это упрощает данные на каждом этапе и увеличивает время обработки. В то время как мультимодальные модели, такие как GPT-4 от OpenAI, могут обрабатывать весь контент без задержек.

Петров считает, что «Яндексу» необходимо развивать эти технологии, поскольку они являются будущим ИИ и ассистентов, включая «Алису». По словам гендиректора группы компаний ЦРТ Дмитрия Дырмовского, мультимодальные модели с поддержкой аудио могут распознавать речь на нескольких языках, различать дикторов, определять эмоции и сложные невербальные приемы, такие как ирония и сарказм. Они также снизят порог входа в речевые технологии, объединяя несколько технологий и используя тот же интерфейс, что и текстовые модели.

Сбербанк сообщил, что обучает GigaChat для ведения мультимодальных диалогов, а также участвовал в разработке модели OmniFusion вместе с Институтом искусственного интеллекта AIRI. В VK от комментариев отказались.

По мнению эксперта в области ИИ и продвинутой аналитики компании Axenix Владимира Кравцева, минимально жизнеспособный продукт SpeechGPT появится в ближайшие месяцы, и затем будет совершенствоваться. Он считает, что SpeechGPT будет интегрироваться в существующие сервисы «Яндекса», постепенно заменяя текущие модели на более современные.

Директор по продукту Hybrid Светлана Другова считает, что разработка «Яндекса» не сможет конкурировать с мультимодальными моделями от Google (семейства Gemini) или OpenAI, так как для этого потребуются огромные инвестиции. Однако, учитывая существующие наработки «Яндекса», затраты будут несколько ниже.

  • Другие новости