Draft-and-Prune Yaklaşımıyla Otomatik Formalizasyonun Güvenilirliği Artıyor
Draft-and-Prune Yaklaşımıyla Otomatik Formalizasyonun Güvenilirliği Artıyor
Draft-and-Prune (D&P) yöntemi, otomatik formalizasyonun mantıksal akıl yürütmedeki doğruluğunu artırarak semantik hataları önemli ölçüde azaltıyor.
Önemli Noktalar
- Draft-and-Prune, doğal dilden mantıksal programlara dönüşümde doğruluk ve çeşitlilik sağlıyor.
- AR-LSAT benchmark’ında GPT-4 ile %78.43, GPT-4o ile %78.00 doğruluk elde edildi.
- D&P, PrOntoQA ve LogicalDeduction testlerinde %100 başarıya ulaştı.
Otomatik Formalizasyonun Zorlukları
Otomatik formalizasyon (AF), doğal dildeki akıl yürütme problemlerini çözümleyici programlara dönüştürerek sembolik çözücülerin mantıksal çıkarımlar yapmasını sağlıyor. Ancak mevcut AF süreçleri kırılgan olabiliyor; programlar ya çalışmıyor ya da yanlış anlamlar taşıyor. Önceki çalışmalar, çoğunlukla sözdizimsel hataları çözücü geri bildirimiyle düzeltebiliyordu, ancak semantik hataların azaltılması hâlâ önemli bir engel olarak karşımıza çıkıyor.
Draft-and-Prune Yöntemi: Çeşitlilik ve Doğrulama
Draft-and-Prune (D&P), AF tabanlı mantıksal akıl yürütmeyi çeşitlilik ve doğrulama yoluyla güçlendiriyor. Yöntem, önce birden fazla doğal dil planı tasarlıyor ve program üretimini bu planlara bağlıyor. Ardından, yürütülebilen ancak çelişkili veya belirsiz formalizasyonları eliyor ve kalan yolların tahminlerini çoğunluk oylamasıyla birleştiriyor.
Teknik Detaylar
D&P, AR-LSAT, ProofWriter, PrOntoQA ve LogicalDeduction gibi dört önemli benchmark üzerinde test edildi. AR-LSAT’ta, AF-only ayarında GPT-4 ile %78.43 ve GPT-4o ile %78.00 doğruluk oranı elde edildi. Bu sonuçlar, MAD-LOGIC ve CLOVER gibi en güçlü AF tabanlı yöntemleri geride bırakıyor. Diğer benchmarklarda ise D&P, PrOntoQA ve LogicalDeduction’da %100 başarıya ulaşarak neredeyse en üst düzey performans gösterdi.
Sonuç ve Gelecek Perspektifi
Draft-and-Prune çerçevesi, ek denetim gerektirmeden otomatik formalizasyon tabanlı mantıksal akıl yürütmede güvenilirliği ve doğruluğu artırıyor. 2026 yılı içinde, bu yöntemin çeşitli mantıksal çıkarım uygulamalarında daha geniş çapta kullanılması bekleniyor.
Kaynak: arxiv.org