Meta* представила мультимодальную модель перевода SeamlessM4T

Исследователи компании Meta* представили SeamlessM4T — передовую многоязычную и многозадачную модель, обеспечивающую качественный перевод и транскрипцию как речи, так и текста.

Meta* представила мультимодальную модель перевода SeamlessM4T

Интернет, мобильные устройства, социальные сети и коммуникационные платформы открыли эру, когда доступ к многоязычному контенту достиг беспрецедентного уровня. SeamlessM4T призван реализовать идею беспрепятственного общения и понимания на разных языках.

Обладая впечатляющим набором возможностей, SeamlessM4T включает в себя:

  • автоматическое распознавание речи для почти 100 языков
  • перевод речи в текст с поддержкой почти 100 языков ввода и вывода
  • перевод речи в речь для почти 100 входных языков и 35 (включая английский) выходных языков
  • перевод текста в текст для почти 100 языков
  • перевод текста в речь для почти 100 языков ввода и 35 (включая английский) языков вывода

SeamlessM4T предоставляется исследователям и разработчикам на условиях лицензии CC BY-NC 4.0, воплощающей идею открытой науки.

Кроме того, опубликованы метаданные SeamlessAlign — крупнейшего из когда-либо созданных наборов данных мультимодального перевода, состоящего из 270 тыс. часов перевода речи и текста. Это облегчает независимый поиск данных и дальнейшие исследования в рамках сообщества.

Разработка SeamlessM4T решает давнюю проблему в области многоязычной коммуникации. В отличие от предыдущих систем, которые были ограничены языковым охватом и зависели от отдельных подсистем, SeamlessM4T представляет собой единую модель, способную комплексно решать задачи перевода речи в речь и речи в текст.

При создании этой единой многоязычной модели Meta опиралась на предыдущие инновации, такие как No Language Left Behind (NLLB) и Universal Speech Translator. Благодаря впечатляющей производительности на языках с низким уровнем ресурсов и стабильно высокой производительности на языках с высоким уровнем ресурсов SeamlessM4T может произвести революцию в межъязыковой коммуникации.

В основе архитектуры модели лежит многозадачная модель UnitY, которая превосходно генерирует переведенный текст и речь.

UnitY поддерживает различные задачи перевода, включая автоматическое распознавание речи, перевод текста в текст и перевод речи в речь, и все это на базе одной модели. Для обучения этой универсальной модели в Meta использовались такие передовые технологии, как кодирование текста и речи, самоконтролируемое кодирование и сложные процессы декодирования.

Для обеспечения точности и безопасности системы Meta придерживается принципов ответственного подхода к ИИ.

По словам представителей Meta, были проведены обширные исследования по снижению токсичности и предвзятости, в результате чего была создана модель, которая лучше понимает и реагирует на потенциальные проблемы. Публичный выпуск модели SeamlessM4T стимулирует совместные исследования и разработки в сообществе ИИ.

По мере того как мир становится все более взаимосвязанным, способность SeamlessM4T преодолевать языковые барьеры свидетельствует о силе инноваций, основанных на ИИ. Это событие приближает нас к будущему, где общение не знает языковых ограничений и где люди смогут по-настоящему понимать друг друга независимо от языка.

 

*организация, деятельность которой признана экстремистской на территории РФ.

  • Другие новости