OpenCV Kurucuları, OpenAI ve Google’a Rakip Olacak Yapay Zeka Video Girişimini Tanıttı
OpenCV Kurucularından Uzun Süreli İnsan Odaklı Yapay Zeka Videoları İçin Yeni Hamle
OpenCV’nin kurucuları, OpenAI ve Google’a rakip olacak şekilde, beş dakikaya kadar gerçekçi insan odaklı videolar üreten CraftStory girişimini duyurdu.
Önemli Noktalar
- CraftStory, Model 2.0 ile beş dakikaya kadar kesintisiz ve gerçekçi AI video üretimi sunuyor.
- Girişim, OpenAI’nin Sora 2 ve Google’ın Veo modellerinin ötesine geçmeyi hedefliyor.
- Yalnızca 2 milyon dolar yatırım ile dev rakiplere karşı iddialı bir şekilde piyasaya çıkıyor.
CraftStory: Uzun Süreli AI Videolarda Sıçrama
Dünyanın en yaygın kullanılan bilgisayarla görme kütüphanesi OpenCV’nin kurucularının kurduğu yeni yapay zeka girişimi CraftStory, beş dakikaya kadar gerçekçi ve insan odaklı videolar üretebilen teknolojisini tanıttı. Bu, OpenAI’nin Sora ve Google’ın Veo modellerini geride bırakan önemli bir gelişme olarak öne çıkıyor.
Salı günü 2 milyon dolar yatırım ile piyasaya çıkan CraftStory, Model 2.0 adlı video üretim sistemiyle, AI video endüstrisinin en büyük sorunlarından biri olan “kısa video süresi” kısıtını aşıyor. OpenAI’nin Sora 2 modeli 25 saniyelik kliplerle sınırlıyken, CraftStory’nin sistemi tek seferde beş dakikaya kadar tutarlı videolar oluşturabiliyor.
Bu yenilik, eğitim, pazarlama ve müşteri bilgilendirme gibi alanlarda kısa AI videolarının yetersiz kaldığı durumlarda işletmelere büyük avantaj sunuyor.
Teknik Detaylar: Paralel İşleme ile Uzun Video Üretimi
CraftStory’nin başarısı, paralelleştirilmiş difüzyon mimarisine dayanıyor. Çoğu rakip model videoları sıralı olarak üretirken, CraftStory aynı anda birden fazla küçük difüzyon algoritmasını tüm video süresine yayarak çalıştırıyor. Böylece, videonun sonundaki bir detay başa da etki edebiliyor ve tutarlılık sağlanıyor.
Şirket, modelini internetten derlenen içerikler yerine profesyonel stüdyolarda, yüksek kare hızlı kameralarla çekilen özel görüntülerle eğitti. Bu sayede, hızlı hareketlerde bile netlik korunuyor ve hareket bulanıklığı önleniyor.
Model 2.0 şu anda video-ile-video (video-to-video) olarak çalışıyor: Kullanıcılar, canlandırmak istedikleri bir görsel ve hareketleri taklit edilecek bir “yönlendirici video” yüklüyor. CraftStory, profesyonel oyuncularla çekilmiş hazır yönlendirici videolar sunuyor ve oyuncular, hareket verileri kullanıldığında gelir payı alıyor. Kullanıcılar isterlerse kendi görüntülerini de yükleyebiliyor.
Sistem, 30 saniyelik düşük çözünürlüklü klipleri yaklaşık 15 dakikada üretebiliyor. Gelişmiş dudak senkronizasyonu ve jest uyum algoritmaları, konuşma ve duygularla uyumlu vücut dili sağlıyor.
Yatırım ve Strateji: Dev Rakiplerle Mütevazı Bütçeyle Yarış
CraftStory’nin 2 milyon dolarlık yatırımı büyük ölçüde Andrew Filev’den geliyor. Filev, 2021’de Wrike’ı 2,25 milyar dolara Citrix’e sattı ve şimdi Zencoder AI şirketini yönetiyor. Bu yatırım, OpenAI’nin son turda topladığı 6 milyar dolar gibi devasa fonlarla kıyaslandığında oldukça mütevazı kalıyor.
CraftStory’nin kurucusu ve CEO’su Victor Erukhimov, başarının anahtarının büyük sermaye değil, odaklanmış ve kaliteli veriyle çalışmak olduğuna inanıyor. Filev ise, küçük ve kararlı mühendis ekiplerinin büyük yenilikler yapabileceğini savunuyor ve CraftStory’nin uzun, insan odaklı videolarda derinleşerek pazarda öne çıkacağını belirtiyor.
Bilgisayarla Görme Uzmanlığının Önemi
Erukhimov’un bilgisayarla görme alanındaki köklü deneyimi, CraftStory’nin video üretiminde öne çıkmasını sağlıyor. OpenCV’ye yaptığı katkılar ve Itseez şirketiyle kütüphaneyi geliştirmesi, ona hareket, yüz dinamikleri ve zamansal tutarlılık gibi konularda derin bilgi kazandırdı. Filev, generative AI videoların yalnızca üretimden ibaret olmadığını, insan hareketini ve mimiklerini doğru anlamanın da kritik olduğunu vurguluyor.
Kurumsal Odak: Eğitim ve Ürün Tanıtım Videoları
CraftStory, tüketiciye dönük yaratıcılık araçları yerine, B2B ve kurumsal pazarı hedefliyor. Şirket; yazılım, eğitim ve ürün tanıtım videoları gibi birkaç dakikayı bulan, baştan sona tutarlı kalite gerektiren içeriklere odaklanıyor. 10 saniyelik AI videoların kurumsal anlatım için yeterli olmadığını belirten Erukhimov, CraftStory’nin beş dakikaya kadar yüksek kaliteli ve tutarlı videolar üretebildiğini söylüyor.
Filev de, uzun sekanslarda tutarlılık sunabilen modellerin pazardaki en büyük eksiklik olduğunu belirtiyor. Ayrıca, bu teknolojinin prodüksiyon maliyetlerini ve süresini ciddi şekilde azaltacağına dikkat çekiyor.
CraftStory, ajanslara da hitap ederek, oyuncu çekimlerinden hızlıca son AI videoları üretme imkanı sunuyor. Şirketin yol haritasında, doğrudan metinden videoya uzun içerik üretimi ve hareketli kamera desteği gibi yenilikler de bulunuyor.
Rekabetçi Pazarda CraftStory’nin Konumu
CraftStory, OpenAI’nin Sora 2, Google’ın Veo, Runway, Pika ve Stability AI gibi rakiplerin olduğu hızlı büyüyen bir pazarda yer alıyor. Erukhimov, insan odaklı uzun videolara odaklanarak farklılaştıklarını ve teknik engeller yerine hızlı inovasyon ve pazar payı kazanımını önceliklendirdiklerini belirtiyor.
Filev, pazarın büyük teknoloji şirketlerinin genel amaçlı API sağlayıcıları ve CraftStory gibi özel çözüm sunan katmanlara ayrışacağını düşünüyor. Model 2.0 şu anda app.craftstory.com/model-2.0 adresinde erken erişime açılmış durumda.
Dev rakiplere karşı sınırlı bütçeyle anlamlı bir pazar payı elde edip edemeyecekleri belirsizliğini korusa da, Erukhimov oldukça iyimser: “AI ile üretilmiş video, şirketlerin hikayelerini anlatmada yakında birincil yol olacak,” diyor.
Kaynak: venturebeat.com