AI Companion

Как мы готовимся к следующей эпохе ИИ

Технический директор Zoom, Сюэдун Хванг (Xuedong Huang), рассказывает о том, как малые языковые модели (МЯМ) формируют наше видение совместной работы ИИ-агентов в рамках интегрированного подхода для упрощения ваших повседневных задач. 

Обновлено: February 25, 2025

Опубликовано: February 19, 2025

Заполнитель изображения
Xuedong Huang (Сюэдун Хуан)
Xuedong Huang (Сюэдун Хуан)
Технический директор

Сюэдун Хуан (Xuedong Huang) является техническим директором (CTO). До Zoom он работал в компании Microsoft CTO и техническим специалистом по ИИ Azure. Он построил выдающуюся карьеру в области ИИ: в 1993 году создал группу речевых технологий Microsoft, руководил отделами по работе с ИИ Microsoft и добился первых в отрасли успехов в области разработки технологий распознавания речи, машинного перевода, понимания языка и компьютерного зрения, равных возможностям человека. Сейчас он является действительным членом IEEE и ACM и избранным членом Национальной инженерной академии и Американской академии искусств и наук.

Сюэдун получил степень доктора философии в области электроэнергетики в Эдинбургском университете в 1989 году (обучение спонсировалось зарубежной Британской исследовательской стипендией и стипендией Эдинбургского университета), степень магистра в области компьютерных наук в Университете Цинхуа в 1984 году и степень бакалавра в той же области в Хунаньском университете в 1982 году.

Мы в компании Zoom всегда сфокусированы на инновациях, что побуждает нас к постоянному стремлению к трансформации с приоритетностью ИИ через Zoom AI Companion. В прошлом году я рассказывал, как наш интегрированный подход обеспечивает высококачественные результаты и как наше внимание к качеству распознавания речи создает оптимальную базу для других функций ИИ. По мере совершенствования искусственного интеллекта мы ускоряем внедрение агентного ИИ.

Что такое агентный ИИ?

До сих пор для ответов на запросы пользователей и предоставления сгенерированных ответов искусственный интеллект полагался на большие языковые модели (БЯМ). Тем не менее, мы видим гораздо больше возможностей в том, как МЯМ могут способствовать созданию настраиваемых ИИ-агентов. Так, мы работаем над AI Companion, поддерживающим агентный ИИ и возможность управлять серией многоэтапных действий от вашего имени.

Когда мы рассматриваем ИИ как агентов, а не как отдельные навыки и реакции, это означает, что они выходят за рамки ввода подсказок для получения простых результатов и должны стать продолжением нас самих и наших целей. Для этого наши ИИ-агенты наделяются следующими характеристиками:

  • Рассуждение и планирование: Анализ ситуаций и разработка стратегий. Агент может автономно преследовать определенные цели, применяя дальновидность и интеллект.
  • Память и размышления: Обучение на прошлом опыте и адаптация его стратегий, что способствует автономному росту, подобно человеческому развитию.
  • Выполнение действий: Использование правильных инструментов для преобразования намерений в реальные результаты.
  • Совместная работа нескольких агентов: Делегирование и управление навыками или несколькими агентами для достижения целей.

В рамках реализации этих ИИ-агентов мы с радостью объявляем о нашем значительном достижении на этом пути: наша недавно разработанная малая языковая модель (SLM) достигла наивысшего уровня производительности в категории 2 миллиардов параметров в открытой бенчмарк-таблице. Путем настройки через готовящуюся к выпуску Zoom AI Studio мы разрабатываем МЯМ Zoom, которые по качеству будут приближаться к ведущим в отрасли БЯМ в специализированных рабочих нагрузках. Это откроет для AI Companion возможность выполнять сложные задачи агентного ИИ с несколькими агентами ИИ, работающими вместе с непревзойденной эффективностью и рентабельностью. 

В интегрированном подходе Zoom ко внедрению ИИ вместо зависимости от единой и всеобъемлющей большой модели мы поддерживаем координацию нескольких настраиваемых моделей. МЯМ Zoom призваны усовершенствовать этот подход путем оптимизации для конкретных задач. Распределяя рабочие нагрузки между специализированными МЯМ с соответствующими агентами и одновременно используя ведущие БЯМ, мы стремимся достичь нескольких важных преимуществ:

  • Совершенство в выполнении задач: Каждый агент может быть точно оптимизирован с использованием соответствующих данных по предметной области и методов тонкой настройки для достижения конкретных критериев производительности.
  • Скорость и масштабируемость: Более компактные модели облегчают настройку, обслуживание и масштабирование, что позволяет быстрее генерировать выводы и обновляться.
  • Рентабельность: Настраиваемые модели меньшего размера требуют меньше вычислительных ресурсов, что также снижает затраты на разработку.

Давайте более подробно рассмотрим, что означает этот прорыв и как именно он выделяется на фоне ведущих моделей.

Как работают наши новые МЯМ по сравнению с актуальными БЯМ

Для создания МЯМ Zoom мы использовали 6 триллионов токенов многоязычных данных и 256 графических процессоров Nvidia H100. От начала до конца весь цикл обучения занял около 30 дней. В следующих таблицах описывается, как возможности МЯМ от Zoom сопоставляются с другими моделями по нескольким общедоступным бенчмаркам по результатам нашего внутреннего тестирования:

  • MMLU: Оценка языковых моделей с помощью вопросов с несколькими вариантами ответов, охватывающих 57 различных предметов (от математики и истории до права и этики) и проверяющих широкий спектр фактических и концептуальных знаний.
  • MMLU-Pro: Расширение MMLU; этот бенчмарк сосредоточен на высококачественных задачах в области STEM и специализированных задачах на рассуждение, побуждающих модели демонстрировать более глубокую техническую компетентность.
  • GPQA: Сложный набор данных, включающий 448 вопросов с несколькими вариантами ответов, созданных экспертами в области биологии, физики и химии, предназначенный для тщательной оценки знаний в конкретной области.
  • BBH: Данный бенчмарк сосредотачивается на особенно сложных когнитивных задачах и задачах на решение проблем, что позволяет оценить продвинутые способности к рассуждению и пониманию в языковых моделях.

Следуя общепринятой в сообществе практике, мы оценили точность этих бенчмарков с помощью инструмента Lighteval, который предоставил 5 примеров на MMLU и MMLU-Pro, 2 примера на GPQA и 3 примера на BBH.

Таблица 1. Сравнение МЯМ Zoom по сравнению с другими МЯМ в категории 2B (чем выше баллы, тем лучше).

Как правило, МЯМ остаются менее конкурентоспособными по этим показателям качества, чем ведущие БЯМ, такие как GPT-4o-mini от OpenAI, без адаптации к конкретной области или задаче, как показано в таблице 2.

Таблица 2. МЯМ Zoom без настройки менее конкурентоспособен по сравнению с БЯМ, выходящими за пределы категории 2B, такими как GPT 4o-mini от OpenAI.

Однако самым интересным является то, что эти МЯМ могут предлагать исключительные возможности при настройке для специализированной задачи. Благодаря настройке с помощью Zoom AI Studio мы планируем эффективно сократить разрыв в качестве по сравнению с более дорогостоящими БЯМ. Настраиваемые МЯМ могут выступать как специализированные агенты для выполнения ключевых задач в согласовании с БЯМ, уделяя приоритетное внимание улучшению точности, скорости и обеспечению рентабельности для каждого агента ИИ. 

Настраиваемые МЯМ могут превосходно справляться с такими задачами, как машинный перевод. Адаптировав МЯМ с 11,5 миллиарда токенов (включая синтезированные данные), предназначенных для машинного перевода, мы значительно улучшили широко используемые метрики качества COMET-22 в 14 языковых парах, охватывающих такие основные языки, как китайский, английский, французский, японский, португальский и испанский, как показано в таблице 3. 

Наши МЯМ могут быть настроены на поддержку бенчмарка агентного ИИ AI Companion для декодирования слотов, который оценивает, насколько эффективно модель интерпретирует команды пользователя при выполнении действий. Благодаря использованию 2 миллиардов синтетических токенов для данных в области агентного ИИ, настраиваемая МЯМ также превосходит GPT-4o-mini, как показано в таблице 3. 

Это сочетание эффективности и адаптируемости может позволить Zoom предложить нашим клиентам по всему миру значительно улучшенный машинный перевод, а также поддержать Zoom AI Studio в адаптации к специфическим рабочим нагрузкам агентного ИИ. 

Таблица 3. Настраиваемая МЯМ Zoom и GPT-4o-mini OpenAI в специализированных рабочих нагрузках: чем выше оценка, тем лучше.

 

Подготовка Zoom к эпохе агентного ИИ

Эти настраиваемые МЯМ станут основой наших ИИ-агентов и позволят им работать более эффективно, предоставляя результаты, по качеству сопоставимые с более дорогими БЯМ, используемыми сегодня. За счет нашего интегрированного ИИ эти агенты и навыки ИИ помогут достичь непревзойденной эффективности, снижения затрат и повышения точности. 

Мы гордимся нашим прогрессом — и это только начало. Наша цель — обеспечить каждую организацию агентами ИИ, которые будут предоставлять экономически эффективные решения с наилучшими показателями. С дополнительными возможностями агентов ИИ и МЯМ AI Companion поможет вам создать такую рабочую среду, где вы сможете успевать больше и работать максимально эффективно.

Наши клиенты нас любят

Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox
Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox

Zoom — единая платформа для совместной работы