Rangka Kerja Pengelasan API Berkuasa LLM dan Penjanaan Data Sintetik

1. Pengenalan

Kertas kerja ini menangani cabaran untuk menjadikan Antara Muka Pengaturcaraan Aplikasi (API) perisian lebih mudah diakses dengan memanfaatkan Model Bahasa Besar (LLM). Interaksi API tradisional memerlukan pengetahuan teknikal tentang struktur, parameter, dan panggilan khusus, mewujudkan halangan untuk pengguna bukan teknikal. Sistem yang dicadangkan menggunakan LLM untuk dua fungsi utama: 1) Mengelaskan input pengguna dalam bahasa semula jadi kepada panggilan API yang sepadan, dan 2) Mengautomasikan penjanaan set data sintetik khusus tugas untuk menilai prestasi LLM bagi tugas pengelasan API. Pendekatan dwi ini bertujuan untuk menurunkan halangan penggunaan perisian sambil menyediakan alat praktikal untuk pembangun menilai kesesuaian LLM untuk pengurusan API tersuai.

2. Kerja Berkaitan

Penyelidikan ini dibina berdasarkan kerja sedia ada dalam NLP dan kejuruteraan perisian, dengan fokus untuk merapatkan jurang antara bahasa manusia dengan arahan yang boleh dilaksanakan mesin.

2.1 LLM untuk Pemetaan Bahasa Semula Jadi kepada API

Kajian terdahulu telah meneroka penggunaan model urutan-ke-urutan dan varian BERT yang ditala halus untuk memetakan bahasa semula jadi kepada kod atau urutan API. Kemunculan LLM tujuan umum yang berkuasa seperti GPT-4 telah mengalihkan paradigma, membolehkan pemetaan yang lebih fleksibel dan sedar konteks tanpa latihan khusus tugas yang meluas.

2.2 Penjanaan Data Sintetik dalam NLP

Penjanaan data sintetik, yang penting untuk latihan dan penilaian di mana data sebenar adalah terhad, telah berkembang daripada templat berasaskan peraturan kepada penjanaan berkuasa LLM. Model seperti GPT-4 boleh menghasilkan contoh teks yang pelbagai dan relevan secara kontekstual, yang dimanfaatkan dalam kerja ini untuk mencipta set data untuk fungsi API tertentu.

3. Rangka Kerja Dicadangkan

Inovasi teras ialah rangka kerja bersepadu yang mengendalikan kedua-dua tugas pengelasan dan penciptaan penanda aras penilaiannya sendiri.

3.1 Seni Bina Sistem

Sistem ini terdiri daripada dua modul yang saling berkaitan: Modul Pengelasan dan Modul Penjanaan Data Sintetik. Seorang pengaturcara pusat menguruskan aliran kerja, mengambil spesifikasi API sebagai input dan mengeluarkan sama ada panggilan API yang dikelaskan atau set data penilaian yang dijana.

3.2 Pengelasan Bahasa Semula Jadi kepada API

Diberikan pertanyaan bahasa semula jadi $q$ dan satu set panggilan API yang mungkin $A = \{a_1, a_2, ..., a_n\}$, LLM bertindak sebagai pengelas $C$. Matlamatnya adalah untuk mencari API $a_i$ yang memaksimumkan kebarangkalian bersyarat: $a^* = \arg\max_{a_i \in A} P(a_i | q, \theta)$, di mana $\theta$ mewakili parameter LLM. Sistem menggunakan pemulaan beberapa contoh untuk membimbing model.

3.3 Saluran Penjanaan Set Data Sintetik

Untuk fungsi API sasaran, modul penjanaan menggunakan LLM (cth., GPT-4-turbo) untuk mencipta satu set pertanyaan bahasa semula jadi yang pelbagai $Q = \{q_1, q_2, ..., q_m\}$ yang sepadan dengan API tersebut. Proses ini dibimbing oleh pemula yang menentukan tujuan API, parameter, dan variasi yang dikehendaki dalam frasa, kerumitan, dan niat pengguna.

4. Persediaan Eksperimen & Keputusan

4.1 Proses Penjanaan Set Data

Set data sampel telah dijana untuk pelbagai fungsi API (cth., pengambilan cuaca, pertanyaan pangkalan data, pemprosesan pembayaran) menggunakan GPT-4-turbo. Setiap set data mengandungi ratusan pertanyaan bahasa semula jadi yang dipadankan dengan label panggilan API yang betul, merangkumi pelbagai parafrasa dan ekspresi pengguna.

4.2 Perbandingan Prestasi Model

Beberapa LLM telah dinilai pada set data yang dijana menggunakan ketepatan pengelasan piawai.

GPT-4

0.996

Ketepatan

GPT-4o-mini

0.982

Ketepatan

Gemini-1.5

0.961

Ketepatan

LLaMA-3-8B

0.759

Ketepatan

4.3 Analisis Keputusan

Keputusan menunjukkan jurang prestasi yang ketara antara model proprietari terkemuka (GPT-4) dan pesaing sumber terbuka yang kuat (LLaMA-3-8B). Ini menonjolkan kepentingan kritikal keupayaan model untuk penyebaran dunia sebenar yang boleh dipercayai. Ketepatan tinggi model teratas mengesahkan kebolehgunaan LLM untuk pengelasan panggilan API yang tepat.

5. Analisis Teknikal & Pandangan Teras

Pandangan Teras: Kertas kerja ini bukan sekadar tentang menggunakan LLM sebagai pengelas API; ia adalah rangka kerja meta untuk menilai LLM mana yang perlu digunakan untuk tugas khusus itu. Produk sebenar ialah enjin penjanaan data sintetik, yang mengubah masalah kabur "kesesuaian LLM" menjadi metrik yang boleh diukur dan boleh dijadikan penanda aras. Ini adalah langkah bijak, yang mengakui bahawa dalam era LLM, keupayaan untuk mencipta data penilaian berkualiti tinggi anda sendiri adalah sama berharganya dengan model itu sendiri.

Aliran Logik: Hujahnya adalah bulat dan saling mengukuh dengan elegan: 1) Kita perlukan LLM untuk memahami bahasa semula jadi untuk API. 2) Untuk memilih LLM yang betul, kita perlukan data khusus tugas. 3) Data sebenar sukar diperoleh. 4) Oleh itu, kita menggunakan LLM berkuasa (GPT-4-turbo) untuk menjana data itu. 5) Kita kemudian menggunakan data itu untuk menguji LLM lain. Ia adalah proses bootstrapping yang memanfaatkan model terkuat yang tersedia untuk menilai bidang ini.

Kekuatan & Kelemahan: Kekuatan utama ialah kepraktisan. Rangka kerja ini menawarkan penyelesaian yang boleh digunakan serta-merta untuk perusahaan yang melihat satu suite API dan papan pemuka LLM yang tersedia (OpenAI, Anthropic, Google, sumber terbuka). Kelemahan, yang diakui oleh penulis, ialah risiko "LLM-inception": menggunakan LLM untuk menjana data untuk menguji LLM boleh mewarisi dan membesarkan bias. Jika GPT-4 mempunyai titik buta dalam memahami jenis pertanyaan tertentu, ia akan menjana data ujian yang cacat, dan semua model akan dinilai terhadap piawaian yang cacat. Ini mencerminkan cabaran yang dilihat dalam domain generatif lain, seperti kitaran latihan GAN di mana penjana dan pembeza boleh membangunkan patologi bersama.

Pandangan Boleh Tindak: Untuk CTO dan pengurus produk, pengambilannya adalah jelas: Jangan hanya menguji GPT-4 untuk antara muka bahasa semula jadi API anda. Uji rangka kerja ini. Gunakannya untuk menjalankan pertandingan antara GPT-4o, Claude 3, dan Gemini pada spesifikasi API sebenar anda. Jurang ketepatan 24 mata antara GPT-4 dan LLaMA-3-8B adalah amaran keras bahawa pilihan model bukanlah remeh dan kos (percuma vs. berbayar) adalah proksi berbahaya untuk prestasi. Rangka kerja ini menyediakan bukti kuantitatif yang diperlukan untuk membuat keputusan platform bernilai berjuta-juta ringgit itu.

6. Contoh Aplikasi Rangka Kerja

Skenario: Sebuah syarikat fintech ingin menambah antara muka bahasa semula jadi kepada "API Analisis Transaksi" dalamannya yang mempunyai fungsi seperti get_transactions_by_date(date_range, user_id), flag_anomalous_transaction(transaction_id, reason), dan generate_spending_report(user_id, category).

Aplikasi Rangka Kerja:

Penjanaan Set Data: Syarikat menggunakan Modul Penjanaan Data Sintetik (dikuasakan oleh GPT-4-turbo) dengan pemula yang menerangkan setiap fungsi API. Untuk get_transactions_by_date, ia mungkin menjana pertanyaan seperti: "Tunjukkan saya pembelian saya dari minggu lepas," "Apa yang saya belanjakan antara 1 dan 10 Mac?", "Bolehkah saya melihat sejarah transaksi saya untuk bulan lepas?"
Penilaian Model: Mereka menggunakan set data yang dijana (cth., 500 pertanyaan merentasi 3 fungsi API) untuk menguji calon LLM: GPT-4o, Claude 3 Sonnet, dan Llama 3 yang ditala halus secara dalaman. Mereka mengukur ketepatan dan kependaman.
Pemilihan & Penyebaran: Keputusan menunjukkan Claude 3 Sonnet mencapai ketepatan 98.5% pada separuh kos-per-panggilan GPT-4o, menjadikannya pilihan optimum. Llama 3 yang ditala halus mendapat markah 89% tetapi menawarkan privasi data. Output kuantitatif membimbing keputusan yang jelas dan berasaskan bukti.

Contoh ini menunjukkan bagaimana rangka kerja ini mengalihkan perbualan daripada tekaan subjektif kepada pemilihan platform berasaskan data.

7. Aplikasi & Hala Tuju Masa Depan

Implikasi kerja ini melangkaui pengelasan API mudah:

Peningkatan Platform Kod Rendah/Tiada Kod: Mengintegrasikan rangka kerja ini ke dalam platform seperti Zapier atau Microsoft Power Platform boleh membolehkan pengguna membina automasi kompleks menggunakan bahasa semula jadi tulen, yang sistem terjemahkan kepada urutan panggilan API merentasi perkhidmatan berbeza.
Demokrasi Perisian Perusahaan: Suite perisian perusahaan kompleks (cth., SAP, Salesforce) dengan ratusan API boleh menjadi boleh diakses oleh penganalisis perniagaan melalui antara muka perbualan, mengurangkan secara mendadak beban latihan dan mengembangkan utiliti.
Ekosistem API Dinamik: Dalam seni bina IoT atau mikropenghidmatan di mana API kerap berubah atau yang baru ditambah, modul penjanaan data sintetik boleh dijalankan secara berkala untuk mengemas kini set data penilaian dan menilai semula LLM yang berprestasi terbaik, mencipta lapisan antara muka yang menyesuaikan diri.
Hala Tuju Penyelidikan - Mengurangkan Halusinasi: Langkah seterusnya yang kritikal ialah mengintegrasikan pengesahan formal atau pemeriksaan kekangan, diilhamkan oleh teknik dalam sintesis program, untuk memastikan panggilan API yang dikelaskan bukan sahaja munasabah tetapi juga sah secara semantik dan selamat untuk dilaksanakan.
Hala Tuju Penyelidikan - Input Multimodal: Rangka kerja masa depan boleh menerima pertanyaan multimodal (cth., pengguna menunjuk pada elemen papan pemuka sambil bertanya soalan) dan memetakannya kepada panggilan API komposit, menggabungkan penglihatan komputer dengan NLP.

8. Rujukan

Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision.
Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21.
Schick, T., & Schütze, H. (2021). Generating Datasets with Pretrained Language Models. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.
Microsoft Research. (2023). The Era of Copilots: AI-Powered Software Development. Diambil dari Microsoft Research Blog.
Google AI. (2024). Gemini: A Family of Highly Capable Multimodal Models. Technical Report.