OpenAGI’nin Yeni AI Modeli, OpenAI ve Anthropic’i Geride Bıraktığını İddia Ediyor
OpenAGI’nin Lux Modeli, Bilgisayar Kontrolünde Rakiplerini Geride Bıraktı
MIT’li bir araştırmacı tarafından kurulan OpenAGI, yeni yapay zeka modeli Lux’un bilgisayar kontrolünde OpenAI ve Anthropic’i açık ara geçtiğini açıkladı.
Önemli Noktalar
- OpenAGI’nin Lux modeli, bilgisayar kontrolünde %83,6 başarı oranı elde etti.
- Lux, hem masaüstü uygulamalarını hem de web tarayıcılarını kontrol edebiliyor.
- Model, rakiplerinden çok daha düşük maliyetle çalışıyor ve güvenlik önlemleriyle geliyor.
OpenAGI’den Lüks Performans: Lux Modelinin Tanıtımı
MIT araştırmacısı Zengyi Qin liderliğindeki OpenAGI, yeni temel modeli Lux’u duyurdu. San Francisco merkezli şirket, Lux’un bilgisayar ekran görüntülerini yorumlayıp masaüstü uygulamaları üzerinde otomatik işlemler gerçekleştirebildiğini belirtiyor. Şirketin açıklamasına göre Lux, Online-Mind2Web benchmark testinde %83,6 başarı oranı yakaladı ve bu alanda sektörün en zorlu değerlendirmesinde liderliğe yerleşti.
Karşılaştırmak gerekirse, OpenAI’nin Operator modeli aynı testte %61,3, Anthropic’in Claude Computer Use modeli ise %56,3 başarı oranına ulaşabildi. Qin, “Geleneksel LLM’ler metin üretmek için eğitiliyor, biz ise modelimizi bilgisayarı kontrol edecek eylemler üretmesi için eğittik. Modelimiz, bilgisayar ekran görüntüleri ve eylem dizileriyle eğitilerek, bilgisayarı yönetebiliyor,” dedi.
Online-Mind2Web: Gerçekçi Testler ve Sonuçlar
Ohio State Üniversitesi ve California Üniversitesi, Berkeley’den araştırmacılar tarafından geliştirilen Online-Mind2Web benchmark’ı, yapay zeka ajanlarının gerçek performansını ölçmek için tasarlandı. 136 gerçek web sitesinde, 300 farklı görev içeren bu test, canlı ve dinamik internet ortamlarında eylem yeteneklerini ölçüyor.
Araştırmacıların bulgularına göre, mevcut yapay zeka ajanlarının yetenekleri, pazarlama iddialarının gerisinde kalıyor. Yapılan değerlendirmeler, OpenAI’nin Operator modelinin bile %61 başarıya ulaşabildiğini ve daha basit ajanların dahi bazı durumlarda daha iyi performans gösterdiğini ortaya koydu. Benchmark, Hugging Face üzerinde herkese açık bir liderlik tablosuyla sektör standardı haline geldi.
Lux Modelinin Farkı: Eylem Odaklı Eğitim Yaklaşımı
OpenAGI, “Agentic Active Pre-training” adını verdiği yeni bir eğitim metodolojisiyle Lux’u geliştirdi. Geleneksel büyük dil modelleri metin üretmeye odaklanırken, Lux modeli bilgisayar ekran görüntüleriyle birlikte eylem dizileri üzerinde eğitildi. Böylece model, görsel arayüzleri yorumlayıp hedefe ulaşmak için gereken tıklama, tuş ve navigasyon adımlarını öğreniyor.
Qin, “Modelin bilgisayar ortamını aktif olarak keşfetmesine izin veriyoruz; bu keşif yeni bilgi üretiyor ve bu bilgilerle model kendini daha da geliştiriyor,” diyor. Bu kendi kendini güçlendiren döngü sayesinde, küçük bir ekip bile büyük rakiplere kıyasla daha iyi sonuçlar elde edebiliyor. OpenAGI ayrıca Lux’un, OpenAI ve Anthropic’in öncü modellerine kıyasla yaklaşık onda bir maliyetle çalıştığını ve görevleri daha hızlı tamamladığını iddia ediyor.
Web Tarayıcısının Ötesinde: Masaüstü Uygulama Kontrolü
OpenAGI’nin duyurusunda öne çıkan bir diğer unsur, Lux’un yalnızca web tarayıcılarını değil, aynı zamanda Slack, Excel gibi masaüstü uygulamalarını da kontrol edebilmesi. Piyasadaki çoğu ajan, yalnızca tarayıcı tabanlı işlemleri desteklerken, Lux’un yerel uygulamalarda da çalışabilmesi, üretkenlik ve iş süreçlerinde geniş bir kullanım potansiyeli sunuyor.
Şirket, Lux ile birlikte geliştiriciler için bir SDK da yayınlıyor ve üçüncü parti uygulamaların model üzerine inşa edilmesini mümkün kılıyor. Ayrıca, Intel ile yapılan iş birliği sayesinde Lux’un edge cihazlarda, yani bulut yerine doğrudan bilgisayarlarda çalışması hedefleniyor. Bu sayede, hassas verilerin dış sunuculara gönderilmesiyle ilgili kurumsal kaygıların önüne geçilmesi amaçlanıyor. OpenAGI, AMD ve Microsoft ile de olası iş birlikleri için görüşmeler yürütüyor.
Güvenlik: AI Ajanlarının Sorumlu Kullanımı
Bilgisayar kontrolü sağlayan yapay zeka ajanları, geleneksel sohbet botlarından farklı olarak yeni güvenlik riskleri doğuruyor. Bir AI sisteminin yanlış yönlendirilmesi halinde, dosya silmekten hassas bilgileri dışarı aktarmaya kadar ciddi zararlar oluşabilir.
OpenAGI, Lux modeline yerleşik güvenlik önlemleri eklediklerini belirtiyor. Model, politika ihlali içeren talepleri reddediyor ve kullanıcıyı uyarıyor. Şirketin verdiği örnekte, kullanıcı banka bilgilerini Google dokümanına kopyalamasını istediğinde Lux, bu isteği güvenlik politikası gereği yerine getirmediğini bildiriyor. Ancak, bu tür güvenlik önlemlerinin bağımsız araştırmacılar tarafından test edilmesi ve kötü niyetli saldırılara karşı dayanıklılığı henüz kesinleşmiş değil.
Zengyi Qin: Akademik ve Girişimcilik Başarıları
OpenAGI’nin kurucusu Zengyi Qin, MIT’de bilgisayarla görme, robotik ve makine öğrenimi üzerine doktora yaptı. Araştırmaları, CVPR, ICLR ve ICML gibi önde gelen konferanslarda yayımlandı.
Qin, OpenAGI’den önce de dikkat çeken projelere imza attı. Geliştirdiği JetMoE adlı büyük dil modeli, sıfırdan 100.000 dolardan düşük maliyetle eğitildi ve Meta’nın LLaMA2-7B modelini standart testlerde geride bıraktı. OpenVoice adlı ses klonlama modeli ise GitHub’da yaklaşık 35.000 yıldız topladı ve en popüler açık kaynak projeleri arasında yer aldı. MeloTTS metinden sese sistemi ise 19 milyonun üzerinde indirildi.
Ayrıca Qin, altı milyon kullanıcının bir milyardan fazla etkileşimde bulunduğu ve 200.000’den fazla AI ajanının geliştirildiği MyShell platformunun da kurucu ortağı.
Yapay Zeka ile Bilgisayar Kontrolünde Milyar Dolarlık Yarış
Son bir yılda, bilgisayar kontrolü sağlayan yapay zeka ajanları pazarı teknoloji devlerinin ve yatırımcıların odağında. OpenAI, Operator modelini tanıtarak web üzerinde görevler gerçekleştiren AI ajanını piyasaya sürdü. Anthropic, Claude Computer Use’u model ailesinin merkezi bir yeteneği olarak geliştiriyor. Google, Gemini ürünlerine ajan özellikleri ekledi. Microsoft ise Copilot ve Windows platformlarına ajan kabiliyetleri entegre etti.
Ancak, sektör hala olgunlaşma aşamasında. Kurumsal müşteriler, güvenilirlik ve güvenlik gibi endişeler nedeniyle bu teknolojileri sınırlı ölçüde benimsiyor. Online-Mind2Web gibi testlerin ortaya koyduğu performans farkları, mevcut sistemlerin kritik uygulamalarda henüz yeterince olgun olmadığını gösteriyor.
OpenAGI, daha düşük maliyet ve yüksek benchmark performansını öne çıkararak dev rakiplerine karşı bağımsız bir alternatif olarak konumlanıyor. Lux modeli ve geliştirici SDK’sı bugünden itibaren erişime açıldı.
Ancak, laboratuvar ortamında elde edilen başarıların gerçek
Kaynak: venturebeat.com