ORBITFLOW: Uzun Bağlamlı LLM Sunumunda SLO Odaklı KV Cache Yönetimi
ORBITFLOW ile Uzun Bağlamlı LLM Sunumunda Verimli KV Cache Yönetimi
ORBITFLOW, uzun bağlamlı büyük dil modellerinin sunumunda bellek yönetimini iyileştirerek gecikmeyi azaltıyor ve SLO başarısını önemli ölçüde artırıyor.
Önemli Noktalar
- ORBITFLOW, KV cache yönetiminde ince ayar ve adaptif stratejiler sunuyor.
- TPOT ve TBT için SLO başarısında %66 ve %48’e varan artış sağladı.
- 95. yüzdelik gecikme %38 oranında azaltılırken, throughput 3.3 kata kadar yükseldi.
Uzun Bağlamlı LLM’lerde Bellek Yönetimi Sorunu
Büyük dil modellerinin (LLM) uzun bağlamlarla çalışması, istek uzunluklarının ve işlem gruplarının token üretimi sırasında değişkenlik göstermesi nedeniyle bellek kullanımında ciddi dalgalanmalara yol açıyor. Geleneksel statik KV cache offload yöntemleri, bu hızlı bellek taleplerine uyum sağlayamadığı için CPU-GPU arasındaki veri transferlerinde gecikme artışı ve SLO (Servis Seviyesi Hedefi) ihlalleri yaşanabiliyor.
ORBITFLOW Nasıl Çalışıyor?
ORBITFLOW, her bir istek için GPU’da hangi katmanların KV cache’lerinin tutulacağına karar vermek amacıyla hafif bir ILP (Tamsayılı Doğrusal Programlama) çözücüsü kullanıyor. Sistem, aktif token üretimi sırasında planın verimsizleştiğini tespit ettiğinde, KV cache yerleşimini çalışma zamanında sürekli olarak optimize ediyor. Yoğun yük altında ise, büyük bellek gereksinimi olan istekleri geçici olarak erteleyerek genel SLO başarısını koruyan bir yedekleme mekanizmasını devreye alıyor.
Teknik Detaylar ve Sonuçlar
- ORBITFLOW, TPOT ve TBT benchmarklarında SLO başarısını sırasıyla %66 ve %48 oranında artırdı.
- 95. yüzdelik gecikme %38 oranında azalırken, mevcut offload yöntemlerine göre throughput 3.3 kata kadar yükseldi.
- Sistem, çalışma zamanında sürekli geri bildirim alarak KV cache yerleşimini optimize ediyor.
Gelecek Perspektifi
ORBITFLOW’un adaptif bellek yönetim yaklaşımı, 2026 yılı içinde uzun bağlamlı LLM sunumunda daha verimli ve düşük gecikmeli hizmetler için önemli bir çözüm olarak öne çıkıyor. Artan model boyutları ve değişken istek profilleri göz önüne alındığında, bu tip yenilikçi sistemler, yüksek performanslı yapay zeka uygulamalarının temelini oluşturacak.
Kaynak: arxiv.org