Em novembro de 2023, compartilhei como a abordagem de IA federada do Zoom alcançou uma qualidade quase igual ao GPT-4 da OpenAI com apenas 6% do custo de inferência. Por mais impressionantes que tenham sido esses resultados, agora podemos oferecer uma qualidade de IA ainda melhor em comparação com o GPT-4, da OpenAI, em relação aos nossos recursos de reunião mais populares. O Zoom AI Companion reduziu os erros relativos em mais de 20% (para "sínteses" do resumo da reunião do Zoom) e 60% (para "próximos passos") em comparação com o GPT-4, em nosso benchmarking cego interno, validado por humanos.
Para apoiar nossos esforços de treinamento com objetivo de aperfeiçoar a qualidade da conclusão de tarefas, nossa abordagem exclusiva para IA federada aproveita muitos grandes modelos de linguagem (LLMs) avançados de código aberto e fechado, trabalhando juntos para conseguir melhores resultados. Isso contrasta com outros fornecedores que estão vinculados a LLMs específicos. Por exemplo, o Copilot, da Microsoft, se baseou no GPT-4 e o Google se baseou no Gemini.
Essa abordagem diferencia o Zoom AI Companion, oferecendo aos nossos clientes uma experiência de alta qualidade em relação aos nossos recursos mais populares. Conforme compartilhei em minha última atualização, usamos nosso Z-scorer exclusivo para avaliar a qualidade de nossos resultados gerados por IA. Primeiro, empregamos um LLM de baixo custo mais adequado para cada tarefa. Em seguida, nosso Z-scorer avalia a qualidade da conclusão da tarefa inicial. Se necessário, usamos outro LLM complementar para aperfeiçoar a tarefa. Esse processo resulta em um resultado de maior qualidade, da mesma forma que uma equipe de pessoas pode realizar mais em conjunto do que um indivíduo sozinho.
Desde então, melhorarmos nosso Z-scorer incorporando sinais de qualidade adicionais de uma variedade de LLMs. Além disso, para nos alinharmos melhor com a preferência humana, aprimoramos o aprendizado por reforço federado. Ao associar o Zoom LLM com um conjunto de LLMs complementares, o popular resumo de reunião do Zoom oferece resultados de alta qualidade e, de acordo com nossa recente avaliação comparativa, agora pode superar o GPT-4, que é usado para alimentar o Copilot, no Microsoft Teams.
Em relação à segurança da IA, também reduzimos o viés inerente à maioria dos LLMs ao formar um comitê composto por vários LLMs, como Claude-3, Gemini e GPT-4, para reduzir as alucinações e aprimorar o LLM do Zoom. Por exemplo, é improvável que LLMs diferentes cometam o mesmo erro alucinado, de modo que podemos obter respostas mais consistentes e reduzir o impacto das exceções.