Модели ИИ протестировали на скорость ответов на пользовательские запросы

Группа по бенчмаркингу искусственного интеллекта MLCommons в среду выпустила новый набор тестов и результатов, оценивающих скорость, с которой топовое оборудование может запускать приложения искусственного интеллекта и отвечать пользователям, пишет Reuters.

Два новых бенчмарка, добавленных MLCommons, оценивают скорость, с которой чипы и системы искусственного интеллекта могут генерировать ответы от мощных моделей ИИ, наполненных данными.

Результаты приблизительно демонстрируют, насколько быстро приложение искусственного интеллекта, такое как ChatGPT, может доставить ответ на пользовательский запрос.

Один из новых бенчмарков добавил возможность измерения скорости сценария вопроса и ответа для больших языковых моделей. Называемый Llama 2, он включает 70 миллиардов параметров и был разработана Meta Platforms (признана в России экстремистской и запрещена).

Официальные лица MLCommons также добавили второй преобразователь текста в изображение к набору инструментов бенчмаркинга, называемому MLPerf, на основе модели Stable Diffusion XL от Stability AI.

Серверы, работающие на чипах H100 от Nvidia, собранных такими компаниями, как Google из Alphabet, Supermicro и самой Nvidia, легко выиграли оба новых бенчмарка по «сырой» производительности.

Несколько производителей серверов представили дизайны на основе менее мощных чипов L40S этой компании.

Поизводитель серверов Krai представил дизайн для создания образов с использованием AI-чипа Qualcomm, который потребляет намного меньше энергии, чем передовые процессоры Nvidia.

Также был представлен проект на базе ускорителей Gaudi2. Этот результат компания охарактеризовала как «надежный».

«Сырая» производительность — не единственный критически важный показатель при развертывании приложений искусственного интеллекта. Продвинутые чипы искусственного интеллекта потребляют огромное количество энергии, и одной из наиболее серьезных задач для компаний искусственного интеллекта является использование чипов, которые обеспечивают оптимальное количество производительности при минимальном потреблении энергии.

У MLCommons есть отдельная категория бенчмарков для измерения энергопотребления.

28 марта 2024