1. Giriş
Bu makale, Büyük Dil Modellerinden (BDM) yararlanarak yazılım Uygulama Programlama Arayüzlerinin (API) daha erişilebilir hale getirilmesi zorluğunu ele almaktadır. Geleneksel API etkileşimi, yapı, parametreler ve belirli çağrılar hakkında teknik bilgi gerektirir ve teknik olmayan kullanıcılar için bir engel oluşturur. Önerilen sistem, BDM'leri iki temel işlev için kullanır: 1) Doğal dil kullanıcı girdilerini ilgili API çağrılarına sınıflandırmak ve 2) API sınıflandırma görevleri için BDM performansını değerlendirmek üzere göreve özgü sentetik veri kümelerinin üretimini otomatikleştirmek. Bu ikili yaklaşım, yazılım kullanımının önündeki engeli düşürmeyi amaçlarken, aynı zamanda geliştiricilere özelleştirilmiş API yönetimi için BDM uygunluğunu değerlendirmek için pratik bir araç sunar.
2. İlgili Çalışmalar
Araştırma, insan dili ile makine tarafından yürütülebilen komutlar arasında köprü kurmaya odaklanan, Doğal Dil İşleme ve yazılım mühendisliğindeki mevcut çalışmaların üzerine inşa edilmektedir.
2.1 Doğal Dilden API Eşlemesi için Büyük Dil Modelleri
Önceki çalışmalar, doğal dili koda veya API dizilerine eşlemek için dizi-dizi modelleri ve ince ayarlı BERT varyantlarının kullanımını araştırmıştır. GPT-4 gibi güçlü, genel amaçlı BDM'lerin ortaya çıkışı, paradigmanın değişmesini sağlamış, kapsamlı göreve özgü eğitim olmadan daha esnek ve bağlamdan haberdar eşlemeye olanak tanımıştır.
2.2 Doğal Dil İşlemede Sentetik Veri Üretimi
Gerçek verinin kıt olduğu durumlarda eğitim ve değerlendirme için kritik öneme sahip olan sentetik veri üretimi, kural tabanlı şablonlardan BDM destekli üretime evrilmiştir. GPT-4 gibi modeller, çeşitli, bağlamsal olarak ilgili metinsel örnekler üretebilir ve bu çalışmada, belirli API işlevleri için veri kümeleri oluşturmak üzere bu yetenekten yararlanılmıştır.
3. Önerilen Çerçeve
Temel yenilik, hem sınıflandırma görevini hem de kendi değerlendirme kıyasını oluşturmayı ele alan birleşik bir çerçevedir.
3.1 Sistem Mimarisi
Sistem, birbirine bağlı iki modülden oluşur: Sınıflandırma Modülü ve Sentetik Veri Üretim Modülü. Merkezi bir orkestratör, API spesifikasyonlarını girdi olarak alan ve sınıflandırılmış bir API çağrısı veya üretilmiş bir değerlendirme veri kümesi çıktısı veren iş akışını yönetir.
3.2 Doğal Dilden API Sınıflandırması
Bir doğal dil sorgusu $q$ ve olası API çağrıları kümesi $A = \{a_1, a_2, ..., a_n\}$ verildiğinde, BDM bir sınıflandırıcı $C$ olarak hareket eder. Amaç, koşullu olasılığı en üst düzeye çıkaran API $a_i$'yi bulmaktır: $a^* = \arg\max_{a_i \in A} P(a_i | q, \theta)$, burada $\theta$ BDM'in parametrelerini temsil eder. Sistem, modeli yönlendirmek için örneklerle az örnekli yönlendirme kullanır.
3.3 Sentetik Veri Kümesi Üretim Hattı
Hedef bir API işlevi için, üretim modülü, o API'ye karşılık gelen çeşitli doğal dil sorguları $Q = \{q_1, q_2, ..., q_m\}$ oluşturmak üzere bir BDM (ör. GPT-4-turbo) kullanır. Süreç, API'nin amacını, parametrelerini ve ifade, karmaşıklık ve kullanıcı niyetindeki istenen varyasyonları belirten yönlendirmelerle yönetilir.
4. Deneysel Kurulum ve Sonuçlar
4.1 Veri Kümesi Üretim Süreci
GPT-4-turbo kullanılarak birden fazla API işlevi (ör. hava durumu getirme, veritabanı sorgulama, ödeme işleme) için örnek veri kümeleri üretilmiştir. Her veri kümesi, doğru API çağrısı etiketiyle eşleştirilmiş, çeşitli yeniden ifadeleri ve kullanıcı ifadelerini kapsayan yüzlerce doğal dil sorgusu içermektedir.
4.2 Model Performans Karşılaştırması
Üretilen veri kümeleri üzerinde standart sınıflandırma doğruluğu kullanılarak çeşitli BDM'ler değerlendirilmiştir.
GPT-4
0.996
Doğruluk
GPT-4o-mini
0.982
Doğruluk
Gemini-1.5
0.961
Doğruluk
LLaMA-3-8B
0.759
Doğruluk
4.3 Sonuç Analizi
Sonuçlar, önde gelen tescilli model (GPT-4) ile güçlü bir açık kaynak rakibi (LLaMA-3-8B) arasında önemli bir performans farkı olduğunu göstermektedir. Bu, güvenilir gerçek dünya dağıtımı için model yeteneğinin kritik önemini vurgulamaktadır. En iyi modellerin yüksek doğruluğu, BDM'lerin hassas API çağrısı sınıflandırması için kullanılabilirliğinin fizibilitesini doğrulamaktadır.
5. Teknik Analiz ve Temel İçgörüler
Temel İçgörü: Bu makale sadece bir BDM'i API sınıflandırıcı olarak kullanmakla ilgili değildir; o belirli iş için hangi BDM'in kullanılacağını değerlendirmek için bir üst çerçevedir. Gerçek ürün, "BDM uygunluğu" gibi belirsiz bir sorunu ölçülebilir, kıyaslanabilir bir metrik haline getiren sentetik veri üretim motorudur. Bu, BDM çağında, kendi yüksek kaliteli değerlendirme verinizi oluşturma yeteneğinin modelin kendisi kadar değerli olduğunu fark eden kurnazca bir hamledir.
Mantıksal Akış: Argüman zarif bir şekilde döngüsel ve kendi kendini güçlendiricidir: 1) API'ler için doğal dili anlamak için BDM'lere ihtiyacımız var. 2) Doğru BDM'i seçmek için göreve özgü veriye ihtiyacımız var. 3) Gerçek veriyi elde etmek zor. 4) Bu nedenle, o veriyi üretmek için güçlü bir BDM (GPT-4-turbo) kullanıyoruz. 5) Daha sonra bu veriyi diğer BDM'leri test etmek için kullanıyoruz. Bu, alanı değerlendirmek için mevcut en güçlü modelden yararlanan bir önyükleme sürecidir.
Güçlü ve Zayıf Yönler: En büyük güçlü yön pratikliktir. Bu çerçeve, bir dizi API ve mevcut BDM'ler (OpenAI, Anthropic, Google, açık kaynak) panosuna bakan işletmeler için hemen kullanılabilir bir çözüm sunar. Yazarların da kabul ettiği zayıf yön ise "BDM-içiçe geçme" riskidir: BDM'leri test etmek için veri üretmek üzere bir BDM kullanmak, önyargıları miras alabilir ve güçlendirebilir. GPT-4 belirli bir sorgu türünü anlamada bir kör noktaya sahipse, hatalı test verisi üretecek ve tüm modeller hatalı bir standarda göre değerlendirilecektir. Bu, üretici ve ayırt edicinin ortak patolojiler geliştirebildiği GAN'ların eğitim döngülerinde görülen zorlukları yansıtmaktadır.
Eyleme Dönüştürülebilir İçgörüler: CTO'lar ve ürün yöneticileri için çıkarım açıktır: API doğal dil arayüzünüz için sadece GPT-4'ü pilot olarak denemeyin. Bu çerçeveyi pilot olarak deneyin. Gerçek API spesifikasyonlarınız üzerinde GPT-4o, Claude 3 ve Gemini arasında bir performans yarışması yapmak için kullanın. GPT-4 ile LLaMA-3-8B arasındaki 24 puanlık doğruluk farkı, model seçiminin önemsiz olmadığı ve maliyetin (ücretsiz vs. ücretli) performans için tehlikeli bir vekil olduğu konusunda sert bir uyarıdır. Çerçeve, o milyon dolarlık platform kararını vermek için gereken nicel kanıtı sağlar.
6. Çerçeve Uygulama Örneği
Senaryo: Bir fintech şirketi, get_transactions_by_date(date_range, user_id), flag_anomalous_transaction(transaction_id, reason) ve generate_spending_report(user_id, category) gibi işlevlere sahip dahili "İşlem Analizi API"sine doğal dil arayüzü eklemek istiyor.
Çerçevenin Uygulanması:
- Veri Kümesi Üretimi: Şirket, her API işlevini tanımlayan yönlendirmelerle Sentetik Veri Üretim Modülünü (GPT-4-turbo tarafından desteklenen) kullanır.
get_transactions_by_dateiçin şu gibi sorgular üretebilir: "Geçen haftaki alışverişlerimi göster", "1-10 Mart arasında ne harcadım?", "Geçen ayki işlem geçmişimi görebilir miyim?" - Model Değerlendirmesi: Üretilen veri kümesini (ör. 3 API işlevi için 500 sorgu) aday BDM'leri test etmek için kullanırlar: GPT-4o, Claude 3 Sonnet ve dahili olarak ince ayarlanmış bir Llama 3. Doğruluk ve gecikme süresini ölçerler.
- Seçim ve Dağıtım: Sonuçlar, Claude 3 Sonnet'in GPT-4o'nun çağrı başına maliyetinin yarısına %98.5 doğruluk elde ettiğini gösterir, bu da onu en uygun seçim yapar. İnce ayarlanmış Llama 3 %89 puan alır ancak veri gizliliği sunar. Nicel çıktı, net, kanıta dayalı bir karara rehberlik eder.
7. Gelecek Uygulamalar ve Yönelimler
Bu çalışmanın etkileri basit API sınıflandırmasının ötesine uzanır:
- Düşük Kod/Kodsuz Platform Geliştirme: Bu çerçevenin Zapier veya Microsoft Power Platform gibi platformlara entegre edilmesi, kullanıcıların saf doğal dil kullanarak karmaşık otomasyonlar oluşturmasına ve sistemin bunu farklı hizmetlerdeki bir API çağrıları dizisine çevirmesine olanak tanıyabilir.
- Kurumsal Yazılım Demokratikleşmesi: Yüzlerce API'ye sahip karmaşık kurumsal yazılım paketleri (ör. SAP, Salesforce), konuşma arayüzleri aracılığıyla iş analistleri için erişilebilir hale gelebilir, eğitim yükünü önemli ölçüde azaltır ve kullanılabilirliği genişletir.
- Dinamik API Ekosistemleri: API'lerin sık sık değiştiği veya yenilerinin eklendiği Nesnelerin İnterneti veya mikro hizmet mimarilerinde, sentetik veri üretim modülü periyodik olarak çalıştırılarak değerlendirme veri kümesi güncellenebilir ve en iyi performans gösteren BDM yeniden değerlendirilebilir, böylece kendini uyarlayan bir arayüz katmanı oluşturulabilir.
- Araştırma Yönelimi - Halüsinasyonu Azaltma: Kritik bir sonraki adım, sınıflandırılan API çağrısının sadece makul değil, aynı zamanda anlamsal olarak geçerli ve yürütülmesi güvenli olduğundan emin olmak için, program sentezindeki tekniklerden esinlenerek resmi doğrulama veya kısıt denetimini entegre etmektir.
- Araştırma Yönelimi - Çok Modlu Girdiler: Gelecekteki çerçeveler, çok modlu sorguları (ör. bir kullanıcının bir soru sorarken bir pano öğesini işaret etmesi) kabul edebilir ve bunları bilgisayarlı görü ile Doğal Dil İşlemeyi harmanlayan bileşik bir API çağrısına eşleyebilir.
8. Kaynaklar
- Brown, T. B., vd. (2020). Dil Modelleri Az Örnekli Öğrenenlerdir. Sinirsel Bilgi İşleme Sistemlerinde Gelişmeler, 33.
- OpenAI. (2023). GPT-4 Teknik Raporu. arXiv:2303.08774.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Döngü-Tutarlı Çekişmeli Ağlar Kullanarak Eşleştirilmemiş Görüntüden Görüntüye Çeviri. IEEE Uluslararası Bilgisayarlı Görü Konferansı Bildirileri.
- Raffel, C., vd. (2020). Aktarım Öğrenmesinin Sınırlarını Birleşik Metinden Metne Dönüştürücü ile Keşfetmek. Makine Öğrenimi Araştırmaları Dergisi, 21.
- Schick, T., & Schütze, H. (2021). Önceden Eğitilmiş Dil Modelleri ile Veri Kümeleri Üretmek. 2021 Doğal Dil İşlemede Ampirik Yöntemler Konferansı Bildirileri.
- Microsoft Research. (2023). Yardımcı Pilotlar Çağı: Yapay Zeka Destekli Yazılım Geliştirme. Microsoft Research Blog'undan alındı.
- Google AI. (2024). Gemini: Yüksek Yetenekli Çok Modlu Modeller Ailesi. Teknik Rapor.