選擇語言

基於大型語言模型的API分類與合成資料生成框架

一個利用大型語言模型將自然語言輸入分類為API呼叫,並生成合成資料集以進行模型評估的新穎系統。
apismarket.org | PDF Size: 0.7 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 基於大型語言模型的API分類與合成資料生成框架

1. 簡介

本文旨在解決如何利用大型語言模型(LLMs)使軟體應用程式介面(APIs)更易於使用的挑戰。傳統的API互動需要具備結構、參數和特定呼叫的技術知識,這對非技術使用者構成了障礙。所提出的系統利用LLMs實現兩個主要功能:1) 將自然語言使用者輸入分類為對應的API呼叫;2) 自動生成合成的、任務特定的資料集,以評估LLMs在API分類任務上的表現。這種雙重方法旨在降低軟體使用的門檻,同時為開發者提供一個實用工具,以評估LLM是否適合客製化的API管理。

2. 相關研究

本研究建立在自然語言處理和軟體工程領域的現有工作基礎上,重點在於橋接人類語言與機器可執行的指令。

2.1 用於自然語言至API映射的大型語言模型

先前的研究已探索使用序列到序列模型和微調的BERT變體,將自然語言映射到程式碼或API序列。像GPT-4這樣強大、通用的LLMs的出現改變了典範,使得無需大量任務特定訓練即可實現更靈活、更具上下文感知能力的映射。

2.2 自然語言處理中的合成資料生成

合成資料生成在真實資料稀缺的訓練和評估中至關重要,其已從基於規則的模板發展到由LLM驅動的生成。像GPT-4這樣的模型可以產生多樣化、上下文相關的文本範例,本研究利用此特性為特定的API功能創建資料集。

3. 提出的框架

核心創新是一個統一的框架,既能處理分類任務,又能創建其自身的評估基準。

3.1 系統架構

該系統由兩個相互關聯的模組組成:分類模組合成資料生成模組。一個中央協調器管理工作流程,將API規格作為輸入,並輸出已分類的API呼叫或生成的評估資料集。

3.2 自然語言至API分類

給定一個自然語言查詢 $q$ 和一組可能的API呼叫 $A = \{a_1, a_2, ..., a_n\}$,LLM充當分類器 $C$。目標是找到使條件機率最大化的API $a_i$:$a^* = \arg\max_{a_i \in A} P(a_i | q, \theta)$,其中 $\theta$ 代表LLM的參數。該系統使用帶有範例的少量提示來引導模型。

3.3 合成資料集生成流程

對於目標API功能,生成模組使用LLM(例如GPT-4-turbo)創建一組多樣化的自然語言查詢 $Q = \{q_1, q_2, ..., q_m\}$,這些查詢對應於該API。此過程由提示引導,這些提示指定了API的目的、參數以及在措辭、複雜性和使用者意圖方面所需的變化。

4. 實驗設定與結果

4.1 資料集生成過程

使用GPT-4-turbo為多個API功能(例如天氣查詢、資料庫查詢、支付處理)生成了樣本資料集。每個資料集包含數百個自然語言查詢,並配對正確的API呼叫標籤,涵蓋了各種改寫和使用者表達方式。

4.2 模型效能比較

使用標準分類準確率在生成的資料集上評估了幾個LLMs。

GPT-4

0.996

準確率

GPT-4o-mini

0.982

準確率

Gemini-1.5

0.961

準確率

LLaMA-3-8B

0.759

準確率

4.3 結果分析

結果顯示,領先的專有模型(GPT-4)與強大的開源競爭者(LLaMA-3-8B)之間存在顯著的效能差距。這凸顯了模型能力對於可靠的實際部署至關重要。頂級模型的高準確率驗證了使用LLMs進行精確API呼叫分類的可行性。

5. 技術分析與核心洞見

核心洞見:本文不僅僅是關於使用LLM作為API分類器;它是一個用於評估應為該特定工作使用哪個LLM的元框架。真正的產品是合成資料生成引擎,它將「LLM適用性」這個模糊問題轉化為可衡量、可基準化的指標。這是一個精明的舉措,認識到在LLM時代,創建自己的高品質評估資料的能力與模型本身一樣有價值。

邏輯流程:論證優雅地形成了一個自我強化的循環:1) 我們需要LLMs來理解API的自然語言。2) 為了選擇合適的LLM,我們需要任務特定的資料。3) 真實資料難以取得。4) 因此,我們使用強大的LLM(GPT-4-turbo)來生成該資料。5) 然後我們使用該資料來測試其他LLMs。這是一個引導過程,利用最強大的可用模型來評估整個領域。

優勢與缺陷:主要優勢是實用性。對於面對一系列API和一組可用LLMs(OpenAI、Anthropic、Google、開源)的企業來說,此框架提供了一個立即可用的解決方案。作者承認的缺陷是「LLM嵌套」風險:使用LLM生成資料來測試LLMs可能會繼承並放大偏見。如果GPT-4在理解某類查詢方面存在盲點,它將生成有缺陷的測試資料,而所有模型都將根據有缺陷的標準進行評判。這反映了在其他生成領域(如GAN的訓練循環,其中生成器和鑑別器可能發展出共同的缺陷)中看到的挑戰。

可操作的洞見:對於技術長和產品經理來說,結論很明確:不要僅僅為您的API自然語言介面試用GPT-4。試用這個框架。用它來在您的實際API規格上,讓GPT-4o、Claude 3和Gemini進行一場評比。GPT-4和LLaMA-3-8B之間24個百分點的準確率差距是一個嚴厲的警告,表明模型選擇並非小事,而成本(免費與付費)是效能的一個危險代理指標。該框架提供了做出數百萬美元平台決策所需的量化證據。

6. 框架應用範例

情境:一家金融科技公司希望為其內部的「交易分析API」添加自然語言介面,該API具有如 get_transactions_by_date(date_range, user_id)flag_anomalous_transaction(transaction_id, reason)generate_spending_report(user_id, category) 等功能。

框架應用:

  1. 資料集生成:該公司使用合成資料生成模組(由GPT-4-turbo驅動),並提供描述每個API功能的提示。對於 get_transactions_by_date,它可能會生成如下查詢:「顯示我上週的購買記錄」、「我在3月1日到10日之間花了多少錢?」、「可以查看我上個月的交易歷史嗎?」
  2. 模型評估:他們使用生成的資料集(例如,涵蓋3個API功能的500個查詢)來測試候選LLMs:GPT-4o、Claude 3 Sonnet和一個內部微調的Llama 3。他們測量準確率和延遲。
  3. 選擇與部署:結果顯示Claude 3 Sonnet達到98.5%的準確率,且每次呼叫成本僅為GPT-4o的一半,使其成為最佳選擇。微調的Llama 3得分為89%,但提供了資料隱私性。量化輸出指導了一個清晰、基於證據的決策。
這個範例展示了該框架如何將對話從主觀猜測轉向資料驅動的平台選擇。

7. 未來應用與方向

這項工作的意義超越了簡單的API分類:

  • 低程式碼/無程式碼平台增強:將此框架整合到像Zapier或Microsoft Power Platform這樣的平台中,可以讓使用者使用純自然語言構建複雜的自動化流程,系統會將其轉譯為跨不同服務的一系列API呼叫。
  • 企業軟體民主化:擁有數百個API的複雜企業軟體套件(例如SAP、Salesforce)可以通過對話式介面變得對業務分析師可訪問,從而顯著減少培訓開銷並擴大效用。
  • 動態API生態系統:在API頻繁變更或新增的物聯網或微服務架構中,可以定期執行合成資料生成模組以更新評估資料集並重新評估效能最佳的LLM,從而創建一個自適應的介面層。
  • 研究方向 - 減少幻覺:關鍵的下一步是整合形式驗證或約束檢查(靈感來自程式合成技術),以確保分類出的API呼叫不僅合理,而且在語義上有效且執行安全。
  • 研究方向 - 多模態輸入:未來的框架可以接受多模態查詢(例如,使用者在提問時指向儀表板元素),並將其映射到複合API呼叫,將電腦視覺與自然語言處理相結合。

8. 參考文獻

  1. Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
  2. OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774.
  3. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision.
  4. Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21.
  5. Schick, T., & Schütze, H. (2021). Generating Datasets with Pretrained Language Models. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.
  6. Microsoft Research. (2023). The Era of Copilots: AI-Powered Software Development. Retrieved from Microsoft Research Blog.
  7. Google AI. (2024). Gemini: A Family of Highly Capable Multimodal Models. Technical Report.