AI Companion

다음 AI 시대를 준비하는 방법

Zoom의 CTO인 Xuedong Huang이 소규모 언어 모델(SLM)이 AI 에이전트가 분산형 접근 방식으로 협력하여 일상적인 업무를 개선하는 비전을 추진하는 방법에 대해 설명합니다. 

업데이트 날짜 February 25, 2025

게시 날짜 February 19, 2025

이미지 플레이스홀더
Xuedong Huang
Xuedong Huang
최고 기술 책임자(CTO)

Xuedong Huang은 최고 기술 책임자(CTO)입니다. Zoom에 입사하기 전에는 Microsoft에서 Azure AI CTO 및 기술 펠로우로 근무했습니다. 1993년 Microsoft의 음성 기술 그룹을 시작하여 Microsoft의 AI 팀이 음성 인식, 기계 번역, 자연어 이해, 컴퓨터 비전 분야에서 업계 최초로 인간과 동등한 수준의 성과를 여러 차례 달성하도록 이끌었으며, IEEE 및 ACM 펠로우이자 National Academy of Engineering 및 American Academy of Arts and Sciences의 선출 회원으로 활동하는 등 AI 분야에서 화려한 경력을 보유하고 있습니다.

Xuedong은 1989년 University of Edinburgh에서 EE 박사 학위(영국 ORS 및 University of Edinburgh 장학금의 후원)를, 1984년 Tsinghua University에서 CS 석사 학위를, 1982년 Hunan University에서 CS 학사 학위를 취득했습니다.

Zoom은 혁신에 집중하고 있으며, 이를 통해 Zoom AI Companion을 통한 AI 우선 변혁을 지속적으로 탐구하고 있습니다. 작년에 저는 분산형 접근 방식이 어떻게 고품질 결과를 제공하는지, 또 음성 인식 품질에 집중함으로써 다른 AI 기능을 위한 더 나은 기반을 구축하는 방법을 공유한 바 있습니다. 인공 지능이 계속 발전함에 따라 Zoom은 에이전트 AI 도입을 가속화하고 있습니다.

에이전틱 AI란 무엇인가요?

지금까지 인공지능은 사용자 프롬프트에 응답하고 생성된 응답을 전달하기 위해 대규모 언어 모델(LLM)에 의존해 왔습니다. 하지만 SLM을 통해 사용자 정의 AI 에이전트를 구현할 수 있는 방법을 고려하면 훨씬 더 많은 기회가 있습니다. 저희는 사용자를 대신하여 일련의 다단계 작업을 관리할 수 있는 에이전트 AI를 지원하기 위해 AI Companion을 구축하고 있습니다.

AI를 독립적인 기술과 응답이 아닌 에이전트로 간주하는 것은 AI가 단순히 프롬프트에 대한 결과를 제공하는 것을 넘어, 우리 자신과 목표의 연장선으로 작동해야 한다는 것을 의미합니다. 이를 위해 Zoom AI 에이전트는 다음과 같은 특징을 갖추고 있습니다.

  • 추론 및 계획: 상황을 분석하고 전략을 수립합니다. 선견지명과 지능으로 자율적으로 목표를 추구할 수 있습니다..
  • 기억과 성찰: 과거로부터 배우고 전략을 조정하여 인간 발달과 유사한 자율적 성장을 촉진합니다.
  • 작업 실행: 올바른 도구를 사용하여 의도를 실제 효과로 변환합니다.
  • 여러 에이전트 협업: 목표를 달성하기 위해 여러 에이전트에게 기술이나 기능을 위임하고 관리합니다.

이러한 AI 에이전트를 현실화하기 위해 새로 개발한 SLM이 공개 벤치마크 리더보드에서 20억 개의 매개변수 범주 내에서 최첨단 성능을 달성했다는 중요한 이정표를 발표하게 되어 매우 기쁩니다. 곧 출시될 Zoom의 AI Studio를 통한 사용자 정의 기능을 통해, Zoom의 SLM이 특정 작업 영역에서 업계 최고의 LLM에 근접한 품질을 제공할 수 있도록 설계하고 있습니다. 이로써 AI Companion은 여러 AI 에이전트와 협력하여 복잡한 에이전틱 AI 작업을 수행하여 탁월한 비용 효율성으로 함께 작업할 수 있는 기반을 마련할 것입니다. 

Zoom의 분산형 AI 접근 방식에서는 하나의 포괄적인 대규모 모델에 의존하는 대신 여러 개의 사용자 정의 모델을 조율하는 것을 지지합니다. Zoom의 SLM은 특정 작업에 최적화되어 이 접근 방식을 강화하도록 설계되었습니다. 주요 LLM을 활용하는 동시에 해당 에이전트와 함께 사용자 정의 SLM에 워크로드를 분산함으로써 몇 가지 중요한 이점을 달성하고자 합니다:

  • 작업별 우수성: 각 에이전트는 적절한 도메인 데이터와 미세 조정 접근 방식을 사용하여 특정 성능 기준을 충족하도록 정밀하게 최적화할 수 있습니다.
  • 속도와 확장성: 더욱 컴팩트한 모델로 사용자 지정, 유지 관리 및 확장이 쉬워져 추론과 업데이트가 더욱 빨라집니다.
  • 비용 효율성: 사용자 정의 소형 모델은 컴퓨팅 리소스가 더 적게 필요하고 개발 비용도 절감됩니다.

이 혁신의 의미와 주요 모델과 비교했을 때 정확히 어떤 차이가 있는지 살펴보겠습니다.

새로운 SLM이 현재의 LLM과 다른 점

Zoom의 SLM을 만들기 위해 6조 개의 다국어 데이터 토큰과 256개의 Nvidia H100 GPU를 사용했습니다. 처음부터 끝까지 전체 트레이닝 과정은 약 30일이 걸렸습니다. 다음 표는 Zoom의 SLM 기능이 여러 공개 벤치마크에서 다른 모델들과 어떻게 비교되는지를 자사 내부 테스트를 기반으로 설명한 것입니다.

  • MMLU: 수학, 역사, 법학, 윤리 등 57개 과목에 걸친 객관식 문제로 언어 모델을 평가하여 광범위한 사실적 및 개념적 이해를 테스트합니다.
  • MMLU-Pro: MMLU의 확장판인 이 벤치마크는 고품질의 STEM 문제와 특수한 추론 과제에 중점을 두어 모델이 더 깊이 있는 기술적 능력을 입증하도록 합니다.
  • GPQA: 생물학, 물리학, 화학 분야의 도메인 전문가가 만든 448개의 객관식 문제로 구성된 까다로운 데이터 세트로, 도메인별 전문성을 엄격하게 평가하도록 설계되었습니다.
  • BBH: 특히 까다로운 인지 및 문제 해결 작업에 중점을 두고 언어 모델의 고급 추론 및 이해 능력을 평가합니다.

커뮤니티의 일반적인 관행에 따라 MMLU 및 MMLU-Pro에서 5개의 예제, GPQA에서 2개의 예제, BBH에서 3개의 예제를 제공하는 Lighteval 도구를 사용하여 이러한 벤치마크의 정확도를 평가했습니다.

표 1. Zoom SLM과 2B 카테고리의 다른 SLM 비교(점수가 높을수록 우수)

일반적으로 SLM은 표 2와 같이 특정 도메인이나 작업에 대한 사용자 정의되지 않은 경우 OpenAI의 GPT-4o-mini와 같은 주요 LLM보다 이러한 품질 측정에서 경쟁력이 떨어집니다.

표 2. 사용자 정의화되지 않은 Zoom SLM은, OpenAI GPT 4o-mini와 같은 2B 범주를 넘어서는 LLM에 비해 경쟁력 부족

그러나 가장 흥미로운 점은 이러한 SLM을 특수한 작업에 맞게 사용자 정의하면 탁월한 기능을 제공할 수 있다는 점입니다. Zoom의 AI Studio를 활용한 사용자 정의를 통해 더 비싼 LLM과의 품질 격차를 효과적으로 줄일 수 있을 것으로 기대합니다. 사용자 정의 SLM은 각 AI 에이전트의 정확성, 속도, 비용 효율성 향상을 우선시하여 LLM과 오케스트레이션에서 주요 작업을 수행하는 전문 에이전트 역할을 할 수 있습니다. 

사용자 정의 SLM은 기계 번역과 같은 작업에서 탁월할 수 있습니다. 기계 번역용으로 설계된 115억 개의 토큰 (합성 데이터 포함) 으로 SLM을 조정함으로써 표 3과 같이 중국어, 영어, 프랑스어, 일본어, 포르투갈어, 스페인어와 같은 주요 언어를 포함하여 14개 언어 쌍에서 널리 채택된 COMET-22 품질 지표를 크게 개선했습니다. 

또한 모델이 작업 실행에 대한 사용자 명령을 얼마나 잘 해석하는지를 측정하는 슬롯 디코딩을 위한 AI Companion의 에이전트 AI 벤치마크를 지원하도록 SLM을 사용자 지정할 수도 있습니다. 에이전틱 AI 도메인 데이터에 대한 20억 개의 합성 토큰을 사용하면 표 3에 표시된 것처럼 사용자 정의 SLM도 GPT-4o-mini보다 성능이 뛰어납니다. 

이 효율성과 적응성의 조합은 Zoom이 전 세계 고객에게 대폭 개선된 기계 번역을 제공하고, 특정 에이전틱 AI 워크로드에 맞춰 Zoom AI Studio를 사용자 정의할 수 있도록 설계되었습니다. 

표 3. 사용자 정의 Zoom SLM과 OpenAI GPT-4o-mini의 전문 워크로드 비교, 점수가 높을수록 좋습니다.

 

에이전틱 AI 시대를 위한 Zoom의 준비

이 사용자 정의 SLM은 현재 사람들이 사용하는 고가의 LLM과 비교하여 더 효율적으로 작동하며 유사한 결과를 제공하는 AI 에이전트의 핵심이 될 것입니다. 이러한 분산형 AI 에이전트와 기술을 사용하면 효율성, 비용, 정확성 측면에서 타의 추종을 불허하는 성과를 거둘 수 있습니다. 

저희는 지금까지의 성과에 자부심을 갖고 있으며, 이는 단지 시작에 불과합니다. 저희의 비전은 모든 조직이 비용 효율적이면서도 고성능인 솔루션을 제공하는 AI 에이전트를 활용할 수 있도록 지원하는 것입니다. AI Companion은 AI 에이전트와 SLM의 확장된 기능을 바탕으로 더 많은 업무를 처리하고 최고의 성과를 낼 수 있는 업무 환경을 조성할 수 있도록 도와드립니다.

Zoom의 주요 고객

Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox
Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox

Zoom - 연결을 위한 하나의 플랫폼