Mfumo wa Uainishaji wa API na Uzalishaji wa Data Bandia Unaotumia LLM

1. Utangulizi

Makala hii inashughulikia changamoto ya kufanya Programu za Uingiliaji kwa Programu (API) za programu kuwa rahisi zaidi kwa kutumia Mfano Mkubwa wa Lugha (LLM). Uingiliaji wa kawaida wa API unahitaji ujuzi wa kiufundi wa muundo, vigezo, na wito maalum, na hii inajenga kikwazo kwa watumiaji wasio wataalamu. Mfumo unaopendekezwa unatumia LLM kwa kazi mbili kuu: 1) Kuainisha maingizo ya lugha asilia ya mtumiaji kuwa wito unaolingana wa API, na 2) Kufanya kiotomatiki uzalishaji wa seti za data bandia, maalum kwa kazi, ili kutathmini utendaji wa LLM kwa kazi za uainishaji wa API. Njia hii ya pande mbili inalenga kupunguza kikwazo cha matumizi ya programu huku ikitoa zana ya vitendo kwa wasanidi programu ili kukadiria ufaafu wa LLM kwa usimamizi wa API uliobinafsishwa.

2. Kazi Zinazohusiana

Utafiti huu unajengwa juu ya kazi zilizopo katika Usindikaji wa Lugha Asilia (NLP) na uhandisi wa programu, ukilenga kuunganisha lugha ya binadamu na amri zinazoweza kutekelezwa na mashine.

2.1 Matumizi ya LLM kwa Uchoraji Ramani wa Lugha Asilia hadi API

Utafiti uliopita umechunguza matumizi ya mifano ya mfuatano-hadi-mfuatano na lahaja za BERT zilizoboreshwa kwa ajili ya kuchora ramani ya lugha asilia kuwa msimbo au mfuatano wa API. Kuja kwa LLM zenye nguvu na madhumuni ya jumla kama GPT-4 kumebadilisha mfumo, na kuwezesha uchoraji ramani unaofaa zaidi na unaotambua muktadha bila mafunzo mengi maalum ya kazi.

2.2 Uzalishaji wa Data Bandia katika NLP

Uzalishaji wa data bandia, muhimu kwa mafunzo na tathmini ambapo data halisi ni chache, umebadilika kutoka kwa viwango vya kisheria hadi uzalishaji unaotumia LLM. Mifano kama GPT-4 inaweza kutoa mifano mbalimbali ya maandishi inayohusiana na muktadha, ambayo inatumika katika kazi hii kuunda seti za data kwa ajili ya kazi maalum za API.

3. Mfumo Unapendekezwa

Ubunifu mkuu ni mfumo wa umoja unaoshughulikia kazi ya uainishaji na uundaji wa kiwango chake cha tathmini.

3.1 Usanifu wa Mfumo

Mfumo una moduli mbili zinazounganishwa: Moduli ya Uainishaji na Moduli ya Uzalishaji wa Data Bandia. Kiongozi kati huendesha mtiririko wa kazi, ukichukua maelezo ya API kama ingizo na kutoa ama wito wa API ulioainishwa au seti ya data ya tathmini iliyozalishwa.

3.2 Uainishaji wa Lugha Asilia hadi API

Kwa kuzingatia swali la lugha asilia $q$ na seti ya wito wa API inayowezekana $A = \{a_1, a_2, ..., a_n\}$, LLM hufanya kama kiannishi $C$. Lengo ni kupata API $a_i$ ambayo inaongeza uwezekano wa masharti: $a^* = \arg\max_{a_i \in A} P(a_i | q, \theta)$, ambapo $\theta$ inawakilisha vigezo vya LLM. Mfumo hutumia kuchochea kwa mifano michache kuongoza mfano.

3.3 Mfereji wa Uzalishaji wa Seti ya Data Bandia

Kwa kazi lengwa ya API, moduli ya uzalishaji hutumia LLM (k.m., GPT-4-turbo) kuunda seti mbalimbali ya maswali ya lugha asilia $Q = \{q_1, q_2, ..., q_m\}$ ambayo inalingana na API hiyo. Mchakato huu unaongozwa na michocheo inayobainisha madhumuni ya API, vigezo, na tofauti zinazohitajika katika usemi, utata, na nia ya mtumiaji.

4. Usanidi wa Majaribio & Matokeo

4.1 Mchakato wa Uzalishaji wa Seti ya Data

Seti za data za sampuli zilizalishwa kwa kazi nyingi za API (k.m., kupata hali ya hewa, swala la hifadhidata, usindikaji wa malipo) kwa kutumia GPT-4-turbo. Kila seti ya data ilikuwa na mamia ya maswali ya lugha asilia yaliyowekwa pamoja na lebo sahihi ya wito wa API, ikifunika anuwai ya misemo mbadala na usemi wa mtumiaji.

4.2 Ulinganisho wa Utendaji wa Mfano

LLM kadhaa zilithimishwa kwenye seti za data zilizozalishwa kwa kutumia usahihi wa kawaida wa uainishaji.

GPT-4

0.996

Usahihi

GPT-4o-mini

0.982

Usahihi

Gemini-1.5

0.961

Usahihi

LLaMA-3-8B

0.759

Usahihi

4.3 Uchambuzi wa Matokeo

Matokeo yanaonyesha pengo kubwa la utendaji kati ya mfano unaoongoza wa kibiashara (GPT-4) na mshindani mwenye nguvu wa chanzo huria (LLaMA-3-8B). Hii inasisitiza umuhimu mkubwa wa uwezo wa mfano kwa ajili ya utekelezaji wa kuaminika ulimwenguni halisi. Usahihi wa juu wa mifano ya juu unathibitisha uwezekano wa kutumia LLM kwa uainishaji sahihi wa wito wa API.

5. Uchambuzi wa Kiufundi & Mawazo Muhimu

Wazo Muhimu: Makala hii sio tu juu ya kutumia LLM kama kiannishi cha API; ni mfumo wa juu wa kutathmini ni LLM gani ya kutumia kwa kazi hiyo maalum. Bidhaa halisi ni injini ya uzalishaji wa data bandia, ambayo inageuza tatizo lisilo wazi la "ufaafu wa LLM" kuwa kipimo kinachoweza kupimika na kulinganishwa. Hii ni hatari ya busara, ikitambua kwamba katika enzi ya LLM, uwezo wa kuunda data yako mwenyewe ya tathmini ya hali ya juu ni muhimu kama mfano wenyewe.

Mtiririko wa Mantiki: Hoja hii ina mzunguko mzuri na inajithibitisha yenyewe: 1) Tunahitaji LLM kuelewa lugha asilia kwa API. 2) Ili kuchagua LLM sahihi, tunahitaji data maalum ya kazi. 3) Data halisi ni ngumu kupata. 4) Kwa hivyo, tunatumia LLM yenye nguvu (GPT-4-turbo) kuzalisha data hiyo. 5) Kisha tunatumia data hiyo kujaribu LLM nyingine. Ni mchakato wa kujikomboa ambao unatumia mfano wenye nguvu zaidi unaopatikana kutathmini uwanja huo.

Nguvu & Kasoro: Nguvu kuu ni utendaji wa vitendo. Mfumo huu unatoa suluhisho linaloweza kutumia mara moja kwa makampuni yanayotazama seti ya API na dashibodi ya LLM zinazopatikana (OpenAI, Anthropic, Google, chanzo huria). Kasoro, ambayo waandishi wanakubali, ni hatari ya "LLM-inception": kutumia LLM kuzalisha data ili kujaribu LLM inaweza kurithi na kuongeza upendeleo. Ikiwa GPT-4 ina upungufu katika kuelewa aina fulani ya swala, itazalisha data ya majaribio yenye kasoro, na mifano yote itahukumiwa dhidi ya kiwango chenye kasoro. Hii inafanana na changamoto zilizoonwa katika nyanja nyingine za uzalishaji, kama vile mizunguko ya mafunzo ya GAN ambapo kizazi na kichambuzi wanaweza kukuza magonjwa ya pamoja.

Mawazo Yanayoweza Kutekelezwa: Kwa CTO na wasimamizi wa bidhaa, hitimisho ni wazi: Usitumie tu GPT-4 kwa kiolesura chako cha lugha asilia cha API. Jaribu mfumo huu. Tumia kuendesha mashindano kati ya GPT-4o, Claude 3, na Gemini kwenye maelezo yako halisi ya API. Pengo la alama 24 la usahihi kati ya GPT-4 na LLaMA-3-8B ni onyo kali kwamba uchaguzi wa mfano sio wa kawaida na gharama (bure dhidi ya kulipwa) ni kiashiria cha hatari cha utendaji. Mfumo huo unatoa ushahidi wa kiasi unaohitajika kufanya uamuzi huo wa mamilioni ya dola wa jukwaa.

6. Mfano wa Utumizi wa Mfumo

Muktadha: Kampuni ya teknolojia ya fedha inataka kuongeza kiolesura cha lugha asilia kwenye "API yake ya Uchambuzi wa Miamala" ya ndani ambayo ina kazi kama get_transactions_by_date(date_range, user_id), flag_anomalous_transaction(transaction_id, reason), na generate_spending_report(user_id, category).

Utumizi wa Mfumo:

Uzalishaji wa Seti ya Data: Kampuni hutumia Moduli ya Uzalishaji wa Data Bandia (inayotumia GPT-4-turbo) na michocheo inayoelezea kila kazi ya API. Kwa get_transactions_by_date, inaweza kuzalisha maswali kama: "Nionyeshe ununuzi wangu kutoka wiki iliyopita," "Nilikutumia nini kati ya Machi 1 na 10?", "Naweza kuona historia yangu ya miamala kwa mwezi uliopita?"
Tathmini ya Mfano: Wanatumia seti ya data iliyozalishwa (k.m., maswali 500 katika kazi 3 za API) kujaribu LLM zinazowezekana: GPT-4o, Claude 3 Sonnet, na Llama 3 iliyoboreshwa ndani. Wanapima usahihi na ucheleweshaji.
Uchaguzi & Utumikishaji: Matokeo yanaonyesha Claude 3 Sonnet inafikia usahihi wa 98.5% kwa nusu ya gharama kwa wito ya GPT-4o, na kuifanya kuwa chaguo bora. Llama 3 iliyoboreshwa inapata alama 89% lakini inatoa faragha ya data. Matokeo ya kiasi huongoza uamuzi wazi, unaotegemea ushahidi.

Mfano huu unaonyesha jinsi mfumo unavyohamisha mazungumzo kutoka kwa nadharia ya kibinafsi hadi uchaguzi wa jukwaa unaoongozwa na data.

7. Matumizi ya Baadaye & Mwelekeo

Matokeo ya kazi hii yanazidi uainishaji rahisi wa API:

Uboreshaji wa Jukwaa la Msimbo Mdogo/Hakuna Msimbo: Kuunganisha mfumo huu katika majukwaa kama Zapier au Microsoft Power Platform kunaweza kuruhusu watumiaji kujenga otomatiki ngumu kwa kutumia lugha asilia safi, ambayo mfumo hutafsiri kuwa mfuatano wa wito wa API katika huduma tofauti.
Udemokrasia wa Programu za Biashara: Seti ngumu za programu za biashara (k.m., SAP, Salesforce) zilizo na mamia ya API zinaweza kuwa rahisi kwa wachambuzi wa biashara kupitia violezo vya mazungumzo, na hii inapunguza sana mzigo wa mafunzo na kuongeza matumizi.
Mfumo wa API Dinamiki: Katika usanifu wa IoT au huduma ndogo ambapo API hubadilika mara kwa mara au mpya zinaongezwa, moduli ya uzalishaji wa data bandia inaweza kukimbia mara kwa mara kusasisha seti ya data ya tathmini na kutathmini tena LLM inayofanya kazi bora, na hivyo kuunda safu ya kiolesura inayojirekebisha.
Mwelekeo wa Utafiti - Kupunguza Uongo: Hatua muhimu inayofuata ni kuunganisha uthibitishaji rasmi au ukaguzi wa vikwazo, ikiongozwa na mbinu katika usanisi wa programu, ili kuhakikisha kwamba wito wa API ulioainishwa sio tu unaowezekana bali pia ni halali kimaana na salama kutekelezwa.
Mwelekeo wa Utafiti - Maingizo ya Njia Nyingi: Mifumo ya baadaye inaweza kukubali maswali ya njia nyingi (k.m., mtumiaji akionyesha kipengele cha dashibodi huku akiuliza swali) na kuyachora ramani kuwa wito wa API wa mchanganyiko, na kuchanganya uono wa kompyuta na NLP.

8. Marejeo

Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision.
Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21.
Schick, T., & Schütze, H. (2021). Generating Datasets with Pretrained Language Models. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.
Microsoft Research. (2023). The Era of Copilots: AI-Powered Software Development. Retrieved from Microsoft Research Blog.
Google AI. (2024). Gemini: A Family of Highly Capable Multimodal Models. Technical Report.