Год назад лондонская компания Stability AI, создавшая ИИ-модель Stable Diffusion для генерации изображений с открытым исходным кодом, выпустила модель Dance Diffusion, которая может генерировать песни и звуковые эффекты на основе текстового описания этих песен и звуковых эффектов
Dance Diffusion стала первым шагом Stability AI в области генеративного аудио, и это стало свидетельством значительных инвестиций — и, судя по всему, острого интереса компании к зарождающейся области инструментов для создания музыки с помощью искусственного интеллекта. Однако в течение почти года после анонса Dance Diffusion на фронте генеративного аудио все было тихо — по крайней мере, в том, что касалось усилий Stability.
Исследовательская организация Harmonai, которую Stability финансировала для создания модели, перестала обновлять Dance Diffusion в прошлом году. Исторически сложилось так, что Stability предоставляет ресурсы и вычисления сторонним организациям, а не создает модели полностью своими силами. И Dance Diffusion так и не получила более отшлифованного релиза; даже сегодня ее установка требует работы непосредственно с исходным кодом, поскольку пользовательский интерфейс отсутствует.
Теперь, под давлением инвесторов, требующих превратить более чем 100-миллионный капитал в продукты, приносящие доход, компания Stability вновь берет на себя обязательства в области аудио.
Сейчас выходит Stable Audio — инструмент, который, по утверждению Stability, является первым, способным создавать «высококачественную» музыку с частотой 44,1 кГц для коммерческого использования с помощью техники, называемой скрытой диффузией. По словам представителей Stability, основанная на метаданных аудио, а также на длительности аудиофайлов и времени их начала модель Audio Diffusion, имеющая около 1,2 млрд. параметров, позволяет лучше контролировать содержание и длительность синтезированного звука, чем инструменты для создания генеративной музыки, выпущенные до нее.
«Компания Stability AI выполняет миссию по раскрытию потенциала человечества путем создания фундаментальных моделей искусственного интеллекта для различных типов контента», — заявил в интервью TechCrunch Эд Ньютон-Рекс, вице-президент по аудиосистемам компании Stability AI. «Мы начали со Stable Diffusion, затем расширили сферу применения до языков, кода и теперь музыки. Мы считаем, что будущее генеративного ИИ — это мультимодальность».
«Dance Diffusion генерировал короткие, случайные аудиоклипы из ограниченной звуковой палитры, и пользователю приходилось самому настраивать модель, если он хотел получить хоть какой-то контроль. Stable Audio может генерировать более длинные аудиоклипы, а пользователь может руководить их генерацией с помощью текстовой подсказки и задавать желаемую продолжительность», — говорит Ньютон-Рекс. «Некоторые подсказки работают просто фантастически, например, EDM и более ритмичная музыка, а также эмбиентная музыка, а некоторые генерируют звук, который немного более «нестандартен», например, более мелодичная музыка, классика и джаз».
Образцы музыки, разработанной искусственным интеллектом звучат более слаженно, мелодично и, за неимением лучшего слова, музыкально, чем многие «песни» из выпущенных до сих пор моделей генерации звука. Являются ли они совершенными? Конечно, нет — например, им не хватает креативности.
Как и в случае с генеративными инструментами для работы с изображениями, речью и видео, для получения наилучшего результата от Stable Audio необходимо разработать подсказку, которая улавливала бы все нюансы песни, которую вы пытаетесь сгенерировать, включая жанр и темп, основные инструменты и даже чувства или эмоции, которые вызывает песня.