Подробный обзор от CTO компании Zoom: как наш интегрированный подход к ИИ позволяет раскрыть весь потенциал производительности и качества с максимально доступными затратами
Сюэдун Хуан (Xuedong Huang) является техническим директором (CTO). До Zoom он работал в компании Microsoft CTO и техническим специалистом по ИИ Azure. Он построил выдающуюся карьеру в области ИИ: в 1993 году создал группу речевых технологий Microsoft, руководил отделами по работе с ИИ Microsoft и добился первых в отрасли успехов в области разработки технологий распознавания речи, машинного перевода, понимания языка и компьютерного зрения, равных возможностям человека. Сейчас он является действительным членом IEEE и ACM и избранным членом Национальной инженерной академии и Американской академии искусств и наук.
Сюэдун получил степень доктора философии в области электроэнергетики в Эдинбургском университете в 1989 году (обучение спонсировалось зарубежной Британской исследовательской стипендией и стипендией Эдинбургского университета), степень магистра в области компьютерных наук в Университете Цинхуа в 1984 году и степень бакалавра в той же области в Хунаньском университете в 1982 году.
Переход на путь преобразования ИИ от построения концепции до реализации напоминает извилистую дорогу, на которой мы постоянно сталкиваемся с препятствиями, адаптацией и инновациями. Мы идем по этому пути последние 30 лет, и я принимал активное и непосредственное участие в этой эволюции ИИ: от распознавания речи и понимания естественного языка до компьютерного виденья. Темпы внедрения инноваций в последние шесть месяцев, с тех пор как я присоединился к Zoom, были особенно поразительными.
В Zoom мы используем ИИ для улучшения коллективной работы и продуктивности. Zoom AI Companion — это краеугольный камень наших инноваций. Решение призвано повысить продуктивность, упростить коллективную работу и предоставить подробный анализ, позволяющий улучшить рабочий процесс на платформе Zoom. Интегрированный подход Zoom к ИИ дает нам возможность предоставлять AI Companion с оплаченными службами, которые назначены в учетной записи пользователя Zoom, без доплат*. Далее мы подробнее расскажем о нашем ИИ и о том, как он позволяет добиться более качественных результатов при меньших расходах.
Интегрированный подход Zoom к ИИ
В течение многих лет компания Zoom предлагала услуги ИИ, такие как распознавание речи, компьютерное зрение, машинный перевод и большие языковые модели (БЯМ), для улучшения коммуникации. Мы используем как БЯМ Zoom, так и модели сторонних поставщиков OpenAI GPT 3.5 и GPT 4, а также Anthropic Claude 2. Наш интегрированный подход может включать в себя более новые БЯМ, например OpenAI’s GPT 4 Turbo, предоставляемые нашими партнерами, как с открытым, так и с закрытым исходным кодом, чтобы продолжать улучшать комплексные возможности клиентов Zoom.
Мы придерживаемся экономически эффективной стратегии: в первую очередь используется менее дорогостоящая БЯМ, которая лучше всего подходит для данной задачи. Затем с помощью Z-Scorer мы оцениваем качество первоначального выполнения задачи и при необходимости используем более продвинутую БЯМ, чтобы дополнить результат задачи, полученный с помощью первой БЯМ. То же самое происходит, когда коллектив совместными усилиями создает более качественный продукт более эффективным способом, чем кто-либо в одиночку.
Сравнение производительности с другими БЯМ
Благодаря интегрированному подходу к ИИ, согласно собственному внутреннему тестированию, наш коллектив улучшил относительное качество AI Companion по сравнению с подходами, в которых использовалась одна модель ИИ, например OpenAI GPT-3.5 Turbo (относительная разница — 99% против 93% рейтинга качества в соответствии с нашей собственной методикой оценки качества) или с несколькими другими современными БЯМ.
Мы измеряем эффективность как сочетание более низкой стоимости, более быстрого отклика и более качественных выходных данных. По сравнению с моделью OpenAI’s GPT-4-32k в качестве прокси Microsoft Copilot, функция вопросов в конференции Zoom AI Companion позволяет снизить расходы и ускорить отклик, сохраняя при этом аналогичное качество ИИ, как показано на рисунке 1.
Рисунок 1. Интегрированный ИИ Zoom в относительном процентном соотношении с OpenAI GPT-4-32k по основным показателям цены и качества задачи, выполняемой функцией вопросов в конференции Zoom AI Companion. Инструмент Microsoft Copilot использовал OpenAI GPT-4 в оркестрации с Microsoft Graph и другими компонентами. Мы не используем данные клиентов для обучения своих моделей ИИ, однако в этом графике для анализа использовали внутренние данные конференций Zoom, взяв OpenAI GPT-4 в качестве прокси Microsoft Copilot.
Потенциал наших моделей еще больше демонстрируется за счет эффективности многоязычной обработки решения AI Companion, которое на данный момент, помимо английского, поддерживает еще 32 языка (предпросмотр). Понимая, что большинство БЯМ в основном предварительно обучены работе с данными, которые по большей части изложены на английском языке, мы добавили традиционные модели, чтобы расширить наши многоязычные возможности. Переводя расшифровки на английский язык с помощью моделей перевода Zoom для многоязычной сводки конференции Zoom AI Companion, мы учитываем не только переведенные данные, но и исходные данные одновременно. Как показано на рисунке 2, качество ИИ нашей модели не только значительно выше, чем у GPT-3.5, но и приближается к GPT-4-32k (прибл. 97%), а вдобавок предусматривает еще и на 6% меньше расходов.
Рисунок 2. Интегрированный ИИ Zoom в относительном процентном соотношении с OpenAI GPT-4-32k в разрезе задачи по созданию многоязычной сводки Zoom AI Companion на 32 языках (не на английском), включая испанский, итальянский, китайский, немецкий, португальский, французский и японский. Инструмент Microsoft Copilot использовал OpenAI GPT-4 в сочетании с Microsoft Graph и другими компонентами. В этом графике для анализа были собраны внутренние данные конференций Zoom и модель OpenAI GPT-4 взята в качестве прокси Microsoft Copilot.
Эти примеры подчеркивают эффективность интегрированного подхода Zoom к ИИ, который беспрепятственно объединяет преимущества различных систем машинного обучения для обеспечения высококачественных результатов.
Успешный подход к работе с ИИ
Мы считаем, что возможности ИИ должны быть доступны как можно большему количеству людей. Наш интегрированный подход к ИИ играет важную роль в реализации этого виденья. И именно поэтому, в то время как другие компании могут взимать дополнительную плату за каждого пользователя, мы предоставляем AI Companion без доплат для клиентов, использующих соответствующие платные планы Zoom*.
Рекомендуем попробовать AI Companion. Подробнее о включении и использовании этих функций см. в нашем руководстве по началу работы. Если у вас нет соответствующего платного плана Zoom, перейдите на него уже сегодня, чтобы воспользоваться преимуществами AI Companion.
* Примечание. Решение AI Companion может быть недоступно для некоторых регионов или отраслевых вертикалей.