Технический директор Zoom, Сюэдун Хванг (Xuedong Huang), рассказывает о том, как малые языковые модели (МЯМ) формируют наше видение совместной работы ИИ-агентов в рамках интегрированного подхода для упрощения ваших повседневных задач.
Сюэдун Хуан (Xuedong Huang) является техническим директором (CTO). До Zoom он работал в компании Microsoft CTO и техническим специалистом по ИИ Azure. Он построил выдающуюся карьеру в области ИИ: в 1993 году создал группу речевых технологий Microsoft, руководил отделами по работе с ИИ Microsoft и добился первых в отрасли успехов в области разработки технологий распознавания речи, машинного перевода, понимания языка и компьютерного зрения, равных возможностям человека. Сейчас он является действительным членом IEEE и ACM и избранным членом Национальной инженерной академии и Американской академии искусств и наук.
Сюэдун получил степень доктора философии в области электроэнергетики в Эдинбургском университете в 1989 году (обучение спонсировалось зарубежной Британской исследовательской стипендией и стипендией Эдинбургского университета), степень магистра в области компьютерных наук в Университете Цинхуа в 1984 году и степень бакалавра в той же области в Хунаньском университете в 1982 году.
До сих пор для ответов на запросы пользователей и предоставления сгенерированных ответов искусственный интеллект полагался на большие языковые модели (БЯМ). Тем не менее, мы видим гораздо больше возможностей в том, как МЯМ могут способствовать созданию настраиваемых ИИ-агентов. Так, мы работаем над AI Companion, поддерживающим агентный ИИ и возможность управлять серией многоэтапных действий от вашего имени.
Когда мы рассматриваем ИИ как агентов, а не как отдельные навыки и реакции, это означает, что они выходят за рамки ввода подсказок для получения простых результатов и должны стать продолжением нас самих и наших целей. Для этого наши ИИ-агенты наделяются следующими характеристиками:
Рассуждение и планирование: Анализ ситуаций и разработка стратегий. Агент может автономно преследовать определенные цели, применяя дальновидность и интеллект.
Память и размышления: Обучение на прошлом опыте и адаптация его стратегий, что способствует автономному росту, подобно человеческому развитию.
Выполнение действий: Использование правильных инструментов для преобразования намерений в реальные результаты.
Совместная работа нескольких агентов: Делегирование и управление навыками или несколькими агентами для достижения целей.
В рамках реализации этих ИИ-агентов мы с радостью объявляем о нашем значительном достижении на этом пути: наша недавно разработанная малая языковая модель (SLM) достигла наивысшего уровня производительности в категории 2 миллиардов параметров в открытой бенчмарк-таблице. Путем настройки через готовящуюся к выпуску Zoom AI Studio мы разрабатываем МЯМ Zoom, которые по качеству будут приближаться к ведущим в отрасли БЯМ в специализированных рабочих нагрузках. Это откроет для AI Companion возможность выполнять сложные задачи агентного ИИ с несколькими агентами ИИ, работающими вместе с непревзойденной эффективностью и рентабельностью.
В интегрированном подходе Zoom ко внедрению ИИ вместо зависимости от единой и всеобъемлющей большой модели мы поддерживаем координацию нескольких настраиваемых моделей. МЯМ Zoom призваны усовершенствовать этот подход путем оптимизации для конкретных задач. Распределяя рабочие нагрузки между специализированными МЯМ с соответствующими агентами и одновременно используя ведущие БЯМ, мы стремимся достичь нескольких важных преимуществ:
Совершенство в выполнении задач: Каждый агент может быть точно оптимизирован с использованием соответствующих данных по предметной области и методов тонкой настройки для достижения конкретных критериев производительности.
Скорость и масштабируемость: Более компактные модели облегчают настройку, обслуживание и масштабирование, что позволяет быстрее генерировать выводы и обновляться.
Рентабельность: Настраиваемые модели меньшего размера требуют меньше вычислительных ресурсов, что также снижает затраты на разработку.
Давайте более подробно рассмотрим, что означает этот прорыв и как именно он выделяется на фоне ведущих моделей.
Как работают наши новые МЯМ по сравнению с актуальными БЯМ
Для создания МЯМ Zoom мы использовали 6 триллионов токенов многоязычных данных и 256 графических процессоров Nvidia H100. От начала до конца весь цикл обучения занял около 30 дней. В следующих таблицах описывается, как возможности МЯМ от Zoom сопоставляются с другими моделями по нескольким общедоступным бенчмаркам по результатам нашего внутреннего тестирования:
MMLU: Оценка языковых моделей с помощью вопросов с несколькими вариантами ответов, охватывающих 57 различных предметов (от математики и истории до права и этики) и проверяющих широкий спектр фактических и концептуальных знаний.
MMLU-Pro: Расширение MMLU; этот бенчмарк сосредоточен на высококачественных задачах в области STEM и специализированных задачах на рассуждение, побуждающих модели демонстрировать более глубокую техническую компетентность.
GPQA: Сложный набор данных, включающий 448 вопросов с несколькими вариантами ответов, созданных экспертами в области биологии, физики и химии, предназначенный для тщательной оценки знаний в конкретной области.
BBH: Данный бенчмарк сосредотачивается на особенно сложных когнитивных задачах и задачах на решение проблем, что позволяет оценить продвинутые способности к рассуждению и пониманию в языковых моделях.
Следуя общепринятой в сообществе практике, мы оценили точность этих бенчмарков с помощью инструмента Lighteval, который предоставил 5 примеров на MMLU и MMLU-Pro, 2 примера на GPQA и 3 примера на BBH.
Таблица 1. Сравнение МЯМ Zoom по сравнению с другими МЯМ в категории 2B (чем выше баллы, тем лучше).
Как правило, МЯМ остаются менее конкурентоспособными по этим показателям качества, чем ведущие БЯМ, такие как GPT-4o-mini от OpenAI, без адаптации к конкретной области или задаче, как показано в таблице 2.
Таблица 2. МЯМ Zoom без настройки менее конкурентоспособен по сравнению с БЯМ, выходящими за пределы категории 2B, такими как GPT 4o-mini от OpenAI.
Однако самым интересным является то, что эти МЯМ могут предлагать исключительные возможности при настройке для специализированной задачи. Благодаря настройке с помощью Zoom AI Studio мы планируем эффективно сократить разрыв в качестве по сравнению с более дорогостоящими БЯМ. Настраиваемые МЯМ могут выступать как специализированные агенты для выполнения ключевых задач в согласовании с БЯМ, уделяя приоритетное внимание улучшению точности, скорости и обеспечению рентабельности для каждого агента ИИ.
Настраиваемые МЯМ могут превосходно справляться с такими задачами, как машинный перевод. Адаптировав МЯМ с 11,5 миллиарда токенов (включая синтезированные данные), предназначенных для машинного перевода, мы значительно улучшили широко используемые метрики качества COMET-22 в 14 языковых парах, охватывающих такие основные языки, как китайский, английский, французский, японский, португальский и испанский,как показано в таблице 3.
Наши МЯМ могут быть настроены на поддержку бенчмарка агентного ИИ AI Companion для декодирования слотов, который оценивает, насколько эффективно модель интерпретирует команды пользователя при выполнении действий. Благодаря использованию 2 миллиардов синтетических токенов для данных в области агентного ИИ, настраиваемая МЯМ также превосходит GPT-4o-mini, как показано в таблице 3.
Это сочетание эффективности и адаптируемости может позволить Zoom предложить нашим клиентам по всему миру значительно улучшенный машинный перевод, а также поддержать Zoom AI Studio в адаптации к специфическим рабочим нагрузкам агентного ИИ.
Таблица 3. Настраиваемая МЯМ Zoom и GPT-4o-mini OpenAI в специализированных рабочих нагрузках: чем выше оценка, тем лучше.
Подготовка Zoom к эпохе агентного ИИ
Эти настраиваемые МЯМ станут основой наших ИИ-агентов и позволят им работать более эффективно, предоставляя результаты, по качеству сопоставимые с более дорогими БЯМ, используемыми сегодня. За счет нашего интегрированного ИИ эти агенты и навыки ИИ помогут достичь непревзойденной эффективности, снижения затрат и повышения точности.
Мы гордимся нашим прогрессом — и это только начало. Наша цель — обеспечить каждую организацию агентами ИИ, которые будут предоставлять экономически эффективные решения с наилучшими показателями. С дополнительными возможностями агентов ИИ и МЯМ AI Companion поможет вам создать такую рабочую среду, где вы сможете успевать больше и работать максимально эффективно.
Подписаться на блог Zoom
Получайте последние публикации Zoom непосредственно на электронную почту