AI Companion

Bir sonraki yapay zeka çağına nasıl hazırlanıyoruz?

Zoom'un CTO'su Xuedong Huang, küçük dil modellerinin (SLM'ler) yapay zeka ajanlarının günlük görevlerinizi iyileştirmek için birleştirilmiş bir yaklaşımla birlikte çalışması vizyonumuzu nasıl yönlendirdiğini ele alıyor.

Yayınlanma tarihi 19 Şubat 2025

Bu blog gönderisinde

01 Agentic AI nedir? - Jumplink to Agentic AI nedir?
02 Yeni SLM'lerimiz bugünün LLM'lerine kıyasla nasıl? - Jumplink to Yeni SLM'lerimiz bugünün LLM'lerine kıyasla nasıl?
03 Zoom'u agentic AI çağına göre ayarlama - Jumplink to Zoom'u agentic AI çağına göre ayarlama

Xuedong Huang

Teknolojiden Sorumlu Yönetici

Xuedong Huang Baş Teknoloji Sorumlusudur (CTO). Zoom'dan önce Microsoft'ta Azure AI CTO'su ve Teknik Araştırmacı olarak görev yapmıştır. Yapay zeka alanındaki kariyeri oldukça başarılıdır: 1993 yılında Microsoft'un konuşma teknolojisi grubunu kurmuş, Microsoft'un yapay zeka ekiplerinin konuşma tanıma, makine çevirisi, doğal dil anlama ve bilgisayarla görme alanlarında sektörün ilk insan denkliği dönüm noktalarından bir çoğuna ulaşmasına öncülük etmiştir. Aynı zamanda IEEE ve ACM Üyesi ve Ulusal Mühendislik Akademisi ile Amerikan Sanat ve Bilim Akademisi'nin seçilmiş bir üyesidir.

Xuedong, 1989 yılında Edinburgh Üniversitesi'nden EE alanında doktora derecesiyle (İngiliz ORS ve Edinburgh Üniversitesi Bursu tarafından desteklenmiştir), 1984 yılında Tsinghua Üniversitesi'nden CS alanında yüksek lisans derecesiyle ve 1982 yılında Hunan Üniversitesi'nden CS alanında lisans derecesiyle mezun olmuştur.

Zoom'da, inovasyona odaklanmaya devam ediyoruz; bu da Zoom AI aracılığıyla yapay zeka odaklı dönüşümü sürekli olarak keşfetmemizi sağlıyor. Geçtiğimiz yıl,birleşik yaklaşımımızın nasıl yüksek kaliteli sonuçlar verdiğini ve konuşma tanıma kalitesine odaklanmamızın diğer yapay zeka özelliklerimiz için nasıl daha iyi bir temel oluşturduğunu paylaştık. Yapay zeka gelişmeye devam ettikçe, ajan tabanlı yapay zeka kullanımını hızlandırıyoruz.

Şu ana kadar yapay zeka, kullanıcıların sorularına yanıt vermek ve oluşturulan yanıtları sunmak için büyük dil modellerine (LLM’ler) dayanmıştır. Bununla birlikte, SLM’lerin kişiselleştirilmiş yapay zeka ajanlarının geliştirilmesini nasıl mümkün kıldığını göz önünde bulundurduğumuzda, çok daha fazla fırsat ortaya çıkmaktadır. Zoom AI’yı, sizin adınıza bir dizi çok adımlı eylemi yönetmek üzere ajan tabanlı yapay zekayı desteklemek amacıyla geliştiriyoruz.

Yapay zekayı bağımsız beceriler ve yanıtlar yerine ajanlar olarak düşündüğümüzde, bu, basit sonuçlar sunmak için komutlar girmekten öteye geçtikleri ve bunun yerine kendimizin ve hedeflerimizin bir uzantısı olmaları gerektiği anlamına gelir. Bunu yapmak için, yapay zeka ajanlarımız aşağıdaki özelliklere sahiptir:

Akıl yürütme ve planlama: Durumları analiz eder ve stratejiler geliştirir. Öngörü ve zeka ile özerk bir şekilde hedeflerin peşinden gidebilir.
Hafıza ve düşünme: Geçmişten ders alın ve stratejilerini uyarlar, insani gelişime benzer şekilde otonom büyümeyi teşvik eder.
Eylem yürütme: Niyeti gerçek dünya etkilerine dönüştürmek için doğru araçları kullanır.
Çoklu ajan işbirliği: Hedeflere ulaşmak için becerileri veya çoklu ajanları görevlendirir ve yönetir.

Bu yapay zeka ajanlarını gerçeğe dönüştürmek için, bu yolculukta önemli bir dönüm noktasını duyurmaktan büyük mutluluk duyuyoruz: yeni geliştirilen Küçük Dil Modelimiz (SLM), kamuya açık kıyaslama liderlik tablosunda 2 milyar parametre kategorisinde son teknoloji performansa ulaştı. Zoom’un yakında çıkacak olan AI Studio’su aracılığıyla özelleştirme yaparak, Zoom’un SLM’lerini özel iş yüklerinde sektörün önde gelen LLM’lerinin kalitesine yaklaşacak şekilde tasarlıyoruz. Bu, Zoom AI'ın birden fazla yapay zeka ajanıyla birlikte çalışarak karmaşık ajan tabanlı yapay zeka görevlerini benzersiz maliyet etkinliğiyle yerine getirmesinin yolunu açacaktır.

Zoom’un birleştirilmiş yapay zeka yaklaşımında, tek ve kapsamlı bir büyük modele bağlı kalmak yerine, birden fazla özelleştirilmiş modelin orkestrasyonunu savunuyoruz. Zoom'un SLM'leri, belirli görevler için optimize edilerek bu yaklaşımı geliştirmek amacıyla tasarlanmıştır. Özelleştirilmiş SLM'ler ve ilgili ajanlar arasında iş yüklerini dağıtarak ve aynı zamanda önde gelen LLM'lerden yararlanarak, birkaç önemli fayda sağlamayı hedefliyoruz:

Göreve özgü mükemmellik: Her bir ajan, belirli performans kriterlerini karşılamak için uygun alan verileri ve ince ayar yaklaşımları kullanılarak hassas bir şekilde optimize edilebilir.
Hız ve ölçeklenebilirlik: Daha kompakt modeller, özelleştirme, bakım ve ölçeklendirmeyi kolaylaştırarak daha hızlı çıkarımlar ve güncellemeler sağlar.
Maliyet açısından verimlilik: Özelleştirilmiş küçük modeller daha az hesaplama kaynağı ve daha düşük geliştirme maliyetleri gerektirir.

Bu atılımın ne anlama geldiğini ve önde gelen modellere kıyasla tam olarak nasıl bir performans gösterdiğini ele alalım.

Zoom’un SLM’sini oluşturmak için 6 trilyon belirteç çok dilli veri ve 256 Nvidia H100 GPU kullandık. Başlangıçtan bitişe kadar, tüm eğitim döngüsü yaklaşık 30 gün sürdü. Aşağıdaki tablolar, Zoom'un SLM yeteneğinin, dahili testlerimize dayanan çeşitli genel kıyaslamalar için diğer modellerle karşılaştırıldığında nasıl olduğunu açıklamaktadır:

MMLU: Dil modellerini matematikten tarihe, hukuktan etiğe kadar 57 farklı konuyu kapsayan çoktan seçmeli sorularla değerlendirir ve geniş bir olgusal ve kavramsal anlayış yelpazesini test eder.
MMLU-Pro: MMLU'nun bir uzantısı olan bu kıyaslama, yüksek kaliteli STEM problemleri ve özel muhakeme zorluklarına odaklanarak modelleri daha derin teknik yeterlilik göstermeye teşvik eder.
GPQA: Biyoloji, fizik ve kimya alanlarındaki alan uzmanları tarafından hazırlanmış, alana özgü uzmanlığı titizlikle değerlendirmek için tasarlanmış 448 çoktan seçmeli sorudan oluşan zorlu bir veri seti.
BBH: Özellikle zorlu bilişsel ve problem çözme görevlerine odaklanır, dil modellerinde gelişmiş muhakeme ve anlama yeteneklerini değerlendirir.

Topluluğun ortak uygulamasını izleyerek, Lighteval aracını kullanarak bu kıyaslamaların doğruluğunu değerlendirdik; bu araç, MMLU ve MMLU-Pro'da 5 örnek, GPQA'da 2 örnek ve BBH'de 3 örnek sağladı.

*Tablo 1. Zoom SLM, 2B kategorisindeki diğer SLM'lerle karşılaştırıldığında (daha yüksek puanlar daha iyidir).*

Genel olarak, SLM'ler, Tablo 2'de gösterildiği gibi, belirli bir alan veya görev için özelleştirme yapılmadığında, OpenAI'nin GPT-4o-mini'si gibi önde gelen LLM'lere kıyasla bu kalite ölçütlerinde daha az rekabetçi kalmaktadır.

*Tablo 2. Özelleştirme yapılmayan Zoom SLM,*, *OpenAI GPT 4o-mini gibi 2B kategorisinin ötesindeki LLM'lerle daha az rekabetçidir.*

Ancak, en ilginç sonuç, bu SLM'lerin özel bir görev için özelleştirildiğinde olağanüstü yetenekler sunabilmesidir. Zoom'un AI Studio'su ile yapılan özelleştirmeler sayesinde, daha pahalı LLM'lere karşı kalite farkını etkili bir şekilde kapatmayı umuyoruz. Özelleştirilmiş SLM'ler, LLM'lerle birlikte çalışarak her bir yapay zeka aracısının doğruluk, hız ve maliyet etkinliğini artırmaya öncelik vererek, ana görevleri yerine getiren özel ajanlar olarak işlev görebilir.

Özelleştirilmiş SLM'ler makine çevirisi gibi görevlerde üstünlük sağlayabilir. Makine çevirisi için tasarlanmış 11,5 milyar belirteç (sentetik veriler dahil) ile SLM'yi uyarlayarak, Çince, İngilizce, Fransızca, Japonca, Portekizce ve İspanyolca gibi büyük dilleri kapsayan 14 dil çiftinde yaygın olarak benimsenen COMET-22 kalite ölçümlerini önemli ölçüde geliştirdik ( Tablo 3'te gösterildiği gibi).

SLM’lerimiz, modelin eylemleri yürütürken kullanıcı komutlarını ne kadar doğru yorumladığını ölçen slot çözümleme odaklı agentic AI benchmark’ımızı destekleyecek şekilde de özelleştirilebilir. Agentic AI etki alanı verileri için kullanılan 2 milyar sentetik token ile eğitilen özelleştirilmiş SLM, Tablo 3’te gösterildiği gibi GPT-4o-mini’den daha iyi performans göstermektedir.

Bu verimlilik ve uyarlanabilirlik kombinasyonu, Zoom’un önemli ölçüde geliştirilmiş makine çevirisi özelliklerini dünya genelindeki müşterilerine sunmasına ve Zoom AI Studio üzerinden belirli agentic AI iş yüklerine yönelik özelleştirmeler yapılmasına olanak sağlamak üzere tasarlanmıştır.

*Tablo 3. Özelleştirilmiş iş yüklerinde Zoom SLM ve OpenAI GPT-4o-mini karşılaştırması, daha yüksek puanlar daha iyidir.*

Bu özelleştirilmiş SLM'ler, şu anda insanların kullandığı daha pahalı LLM'lere kıyasla daha verimli çalışan ve benzer sonuçlar üreten yapay zeka ajanlarımızın temelini oluşturacak. Birleştirilmiş yapay zekamızı kullanarak, bu yapay zeka ajanları ve becerileri benzersiz verimlilik, maliyet avantajı ve doğruluk sağlamaya yardımcı olacak.

İlerlememizle gurur duyuyoruz ve bu sadece başlangıç. Vizyonumuz, her Organizasyon'u uygun maliyetli, yüksek performanslı Çözümler sunan yapay zeka temsilcileri ile donatmaktır. Yapay zeka aracıları ve SLM'lerin ek yetenekleriyle, Zoom AI daha fazlasını başarabileceğiniz ve en iyi işinizi ortaya koyabileceğiniz bir iş yeri yaratmanıza yardımcı olmaya hazır.