AI Companion Riunione e Chat

Mettere la qualità dell'IA al primo posto per migliorare l'accessibilità e la collaborazione

Zoom ha superato i concorrenti sottoposti ai test in termini di riconoscimento vocale e qualità delle informazioni generate dall’IA sulle riunioni

Pubblicato in data 14 novembre 2024

Mettere la qualità dell'IA al primo posto per migliorare l'accessibilità e la collaborazione
Xuedong Huang
Xuedong Huang
Responsabile della tecnologia

Xuedong Huang è il Chief Technology Officer (CTO). Prima di far parte di Zoom, ha lavorato in Microsoft, dove ha ricoperto il ruolo di CTO e Technical Fellow di Azure AI. La sua è una carriera brillante nel settore dell'IA: ha fondato il gruppo di tecnologia vocale di Microsoft nel 1993, ha diretto i team per l'IA di Microsoft in modo da raggiungere molti dei primi traguardi della parità umana del settore nel riconoscimento vocale, nella traduzione automatica, nella comprensione del linguaggio naturale e nella visione computerizzata. È un IEEE e ACM Fellow e un membro eletto della National Academy of Engineering e dell'American Academy of Arts and Sciences.

Xuedong ha conseguito il dottorato di ricerca in ingegneria elettrica presso l'Edinburgh University nel 1989 (sponsorizzato dall'ORS britannico e con una borsa di studio dell'università di Edimburgo), il master in informatica presso la Tsinghua University nel 1984 e la laurea in CS presso la Hunan University nel 1982.

La tecnologia può essere un grande fattore di equità e l’intelligenza artificiale non fa eccezione. Può aiutarci a realizzare cose che prima non eravamo in grado di fare. Mentre continuiamo a sviluppare funzionalità e capacità di IA in Zoom Workplace, prestiamo la massima attenzione a come i nostri prodotti possano supportare i nostri clienti e ci impegniamo a fornire risultati di altissima qualità affinché possano essere efficienti e avere successo nel loro lavoro. 

I nostri clienti utilizzano le funzionalità di IA di Zoom Workplace in tutti i settori, tra cui i servizi finanziari, il settore sanitario, l’istruzione, la pubblica amministrazione e altri ancora. Oggi, nel settore dell’istruzione e delle università, studenti e insegnanti utilizzano già le funzionalità di IA di Zoom per rendere le lezioni più accessibili. Nel settore sanitario, le persone effettuano visite virtuali e utilizzano funzionalità di trascrizione e riepilogo per ampliare l’accesso alle cure. 

L'utilizzo dell'IA per rendere la tecnologia più accessibile non è riservato solo ai sottotitoli per le persone con problemi di udito, ma anche per abbattere gli ostacoli linguistici. Quando 35 anni fa studiavo a Edimburgo, in Scozia, e stavo ancora imparando l'inglese, non solo ho beneficiato dei sottotitoli quando guardavo la BBC, ma ho anche capito cosa possono fare sottotitoli e traduzioni accurate per le persone di tutto il mondo. L'uso dell'IA è già piuttosto esteso e vogliamo proseguire a migliorare la qualità per offrire queste possibilità a più persone.

Il nostro successo nella trascrizione delle riunioni è solo una parte di questo percorso e riguarda molti aspetti di come l’IA possa potenziare le competenze e l’esperienza delle persone, aiutandole a ottenere risultati ancora migliori. Questo può includere sottotitoli automatici in tempo reale durante riunioni o webinar, la traduzione dei sottotitoli in tempo reale in un’altra lingua oppure la trascrizione delle riunioni per generare riepiloghi, registrazioni intelligenti, attività da completare e altro ancora. Creare un’esperienza di riunione più accessibile ed equa in un contesto aziendale globale è un vantaggio per tutti.

Il riconoscimento vocale accurato è alla base di Zoom AI

All’inizio di quest’anno, ho spiegato come il nostro approccio federato all’IA stesse raggiungendo, o superando, quello di altri modelli di IA a costi decisamente inferiori. Oggi sono entusiasta di condividere i risultati di una recente valutazione delle prestazioni di Zoom AI commissionata a TestDevLab, che conferma ulteriormente la leadership di Zoom nel riconoscimento vocale e nell’intelligenza artificiale per le riunioni rispetto ad altri strumenti di IA testati. 

Le nostre funzionalità basate sull’IA integrano perfettamente le informazioni sul lavoro e sul web per offrire un miglioramento significativo dell’esperienza di Zoom Workplace. Sebbene le funzionalità di IA siano integrate in Zoom Workplace in vari modi, c’è un elemento che abilita le nostre funzionalità di IA più utilizzate, tra cui i riepiloghi delle riunioni, le attività da completare e le trascrizioni.

L'efficacia di queste funzionalità di IA dipende dall'accuratezza delle trascrizioni da cui attingono. Molte delle nostre funzionalità più diffuse, come la possibilità di porre domande in riunione, si basano sul riconoscimento vocale di qualità elevata. Una trascrizione affidabile permette all'IA di acquisire nomi, argomenti e intenzioni in modo accurato, formando i pilastri dei riepiloghi, dei punti salienti e delle informazioni fruibili.

Lo standard del settore per misurare l’accuratezza della trascrizione è il Word Error Rate (WER), che confronta la percentuale di differenze tra una trascrizione generata dall’uomo e una generata dall’IA. Negli ultimi anni, Zoom ha lavorato per modernizzare l’architettura IA e ridurre al minimo il WER. Riducendo al minimo il WER, creiamo trascrizioni precise e affidabili per aiutare i nostri clienti a ottenere risultati efficaci e utili.

In un'analisi WER, il testo rosso rappresenta le parole perse, mentre il testo blu rappresenta le parole non trovate nella trascrizione di partenza.

In un'analisi WER, il testo rosso rappresenta le parole mancanti e il testo blu rappresenta le parole non trovate nella trascrizione di partenza. 

 

Zoom offre trascrizioni più accurate per potenziare le funzionalità di IA

I risultati sono stati chiari: Zoom ha superato Microsoft Teams con un WER significativamente inferiore, offrendo un livello di accuratezza della trascrizione più elevato. Nelle riunioni in cui ogni parola conta, anche piccoli errori di trascrizione possono avere un forte impatto sui riepiloghi, sulle attività o sulle risposte alle domande poste in riunione.

Ecco come TestDevLab ha realizzato e condotto questi test:

  • Sono state utilizzate tre riunioni registrate, con un numero di partecipanti compreso tra due e 16.
  • I file sono stati riprodotti in modo sincrono sui singoli computer collegati alla chiamata.
  • Per coerenza, ogni test è stato ripetuto cinque volte su ogni piattaforma.

Per ogni test, hanno confrontato Zoom Workplace e Microsoft Teams e hanno misurato il tasso di errore di parola per ciascuna riunione.

Nella misurazione del WER (Word Error Rate), una percentuale bassa indica una trascrizione di qualità superiore.

Nella misurazione del WER (Word Error Rate), una percentuale bassa indica una trascrizione di qualità superiore.

I riepiloghi e le trascrizioni delle riunioni rappresentano alcune delle funzionalità preferite e più utilizzate in molte piattaforme di IA. Poiché sono così ampiamente utilizzate, è ancora più importante assicurarsi che gli errori siano ridotti il più possibile. Sono preferite perché consentono un risparmio di tempo e le persone trovano molto utile leggere, riassumere e comprendere meglio le informazioni importanti.

TestDevLab ha anche classificato Zoom Workplace e Microsoft Teams per quanto riguarda la qualità del riepilogo della riunione e l'IA conversazionale (come la stabilità delle risposte). Per valutare i riepiloghi, hanno creato un assistente LLM con risultati validati da una persona.

Le trascrizioni affidabili creano una base migliore per le funzionalità di IA per i passaggi successivi

La trascrizione non è l’unica funzionalità di IA valutata da TestDevLab. A differenza delle trascrizioni, l’obiettivo di altre funzionalità di IA, come i riepiloghi delle riunioni, non è quello di fornire una copia parola per parola, bensì di creare una versione personalizzata di quanto accaduto che soddisfi le aspettative degli utenti. 

TestDevLab ha anche classificato Zoom Workplace e Microsoft Teams per quanto riguarda la qualità del riepilogo della riunione e l'IA conversazionale (come la stabilità delle risposte). Per valutare i riepiloghi, hanno creato un assistente LLM con risultati validati da una persona.

In questa valutazione, abbiamo testato due funzionalità di riepilogo all'interno di Microsoft Teams: la funzionalità di riepilogo smart delle riunioni, disponibile con una licenza Teams Premium o Microsoft 365 Copilot, e la capacità di generazione di un riepilogo basata su prompt dell'assistente di IA di Microsoft Copilot in Teams Meetings. Dato che l'assistente di IA di Copilot può generare solo riepiloghi basati su prompt, abbiamo chiesto a Copilot di creare un riepilogo e dei punti d'azione al termine della riunione.

In questa valutazione, abbiamo testato due funzionalità di riepilogo all'interno di Microsoft Teams: la funzionalità di riepilogo smart delle riunioni, disponibile con una licenza Teams Premium o Microsoft 365 Copilot, e la capacità di generazione di un riepilogo basata su prompt dell'assistente di IA di Microsoft Copilot in Teams Meetings. Dato che l'assistente di IA di Copilot può generare solo riepiloghi basati su prompt, abbiamo chiesto a Copilot di creare un riepilogo e dei punti d'azione al termine della riunione.

Per quanto riguarda l’IA conversazionale, TestDevLab ha misurato la capacità delle piattaforme di IA di rispondere alle domande durante una riunione, sia per quesiti relativi al contesto della riunione stessa, sia per ricerche web non correlate, come ad esempio “Qual è l’edificio più alto del mondo?”. Zoom ha registrato prestazioni superiori a Microsoft sia nei tempi di risposta sia nella stabilità, intesa come la capacità di fornire risposte coerenti a tutti i partecipanti alla riunione.

Una maggiore stabilità indica che l'IA di Zoom fornisce risposte affidabili a tutti i partecipanti, offrendo un'esperienza più fluida durante le riunioni.

Una maggiore stabilità indica che l'IA di Zoom fornisce costantemente risposte affidabili a tutti i partecipanti, offrendo un'esperienza più fluida durante le riunioni. 

 

Zoom offre un’esperienza di riunione migliore e più equa

Questi risultati riflettono la nostra costante attenzione alla qualità in tutto Zoom Workplace. Ci impegniamo a creare un modo per consentire alle persone di connettersi più facilmente tra loro, di gestire le attività quotidiane con più efficienza e di avere l’opportunità di utilizzare l’IA a supporto del proprio lavoro. Le trascrizioni delle riunioni generate dall’IA sono solo uno dei modi in cui le persone possono utilizzare Zoom Workplace per creare un’esperienza più equa per molti utenti, tra cui persone sorde, ipoudenti, neurodivergenti e coloro che parlano una lingua diversa da quella degli altri partecipanti alla riunione.

Questa valutazione condotta da TestDevLab evidenzia Zoom Workplace come leader nelle prestazioni dell’IA, con una precisione di trascrizione superiore, tempi di risposta più rapidi alle domande in riunione e capacità di IA conversazionale più stabili rispetto ai concorrenti analizzati.

Inoltre, Zoom Workplace offre diverse funzionalità di IA senza costi aggiuntivi per gli account Zoom a pagamento, a differenza di alcune piattaforme alternative, che addebitano un costo extra per ciascun utente aggiuntivo con funzionalità di IA abilitate. Noi di Zoom riteniamo fondamentale rendere questi strumenti precisi e innovativi accessibili al maggior numero possibile di clienti. Partiamo dalle basi, ovvero dalla creazione di trascrizioni di alta qualità, e continuiamo a sviluppare esperienze eccezionali basate sull’IA per tutti i nostri clienti.

Se non hai un piano Zoom a pagamento idoneo, effettua ora l’upgrade per accedere ai vantaggi di Zoom Workplace. 

I nostri clienti ci amano

Okta
Nasdaq
Rakuten
Logitech
Western Union
Autodesk
Dropbox

Zoom – Una piattaforma per comunicare