3 min read

Prófanir í heimi spunagreindar | Fyrri hluti

Prófanir í heimi spunagreindar | Fyrri hluti

Hvernig prófar maður hugbúnað þar sem notandinn getur sett inn þau fyrirmæli sem honum dettur í hug, útkoman er tilviljunum háð og mat á gæðum byggir á huglægu mati?

Velkomin í heim spunagreindar! 

Handvirkar prófanir á slíkum lausnum og endurgjöf sérfræðinga virka, en skalast ekki og gera það erfitt að sýna fram á mælanlegan árangur milli útgáfa.

Til að leysa þetta hefur DataLab tekið upp aðferðafræði sem byggir á samstarfi mannlegra sérfræðinga og LLM lausna til að meta gæði svara á sjálfvirkan hátt. 

Fannar Freyr Bergmann, sérfræðingur á sviði gagnavísinda og gervigreindar, skrifar um málið í tveggja hluta seríu. Hann flutti erindi um sama efni á UTmessunni í byrjun febrúar 2026.

B93A2140Fannar flytur erindi á UTmessunni í febrúar 2026.

Spunagreind hjá DataLab

DataLab hefur unnið að þróun og innleiðingu spunagreindarlausna hjá fjölda fyrirtækja og stofnana undanfarin þrjú ár undir vörumerkinu Ari | Þarfasti þjónninn

Ari - Þarfasti þjónninn

Lausnirnar sem við höfum þróað eru fjölbreyttar, t.d. sérfræðingar fyrir innanhúss notkun, erindrekar byggðir á SQL gagnagrunnum við að greina gögn og snjöll spjallmenni á ytri vef sem þjónusta viðskiptavini.

Það sem stendur upp úr í þessum verkefnum er mikilvægi prófana. Verkefnin sem hafa gengið best einkennast af umfangsmiklum og ítarlegum prófunum og endurgjöf sem við reynum að bregðast við eftir bestu getu. 

 

Hvers vegna eru prófanir mikilvægar í þróun spunagreindarlausna? 

Ákveðnir eiginleikar spunagreindar gera prófanir jafnvel enn mikilvægari en hjá hefðbundnum hugbúnaði. Þó að áherslan sé sem fyrr á að tryggja ákveðna grunnvirkni, þá gera þessir eiginleikar okkur erfitt fyrir að tryggja þá grunnvirkni.

#1 Slembilíkan 

Spunagreindarlausnir eru ólíkar öðrum hugbúnaðarlausnum að því leyti að úttakið eða útkoman getur verið breytileg þrátt fyrir sama inntak eða fyrirmæli. Ekki er víst að sama spurning sett inn tvisvar í röð gefi sama svar.

#2 Notendaviðmót

Í hefðbundnum hugbúnaði hafa hugbúnaðarsérfræðingar tól sem gerir þeim kleift að hafa stjórn á því sem notandi gerir. Til dæmis takka, sleða og textareiti. Inntakið er fyrirsjáanlegt og þeir hafa stjórn á útkomunni.  

What-is-Wireframing

Hægt er að kortleggja flæði notenda með skýru móti í hefðbundnum hugbúnaðarlausnum

Notendaviðmótið í spunagreindarlausnum hins vegar gefur hugbúnaðarsérfræðingnum hvorki fullkomna stjórn á útkomunni - hún er tilviljunum háð - né stjórn á því hvernig notandi nýtir lausnina - hann skrifar það sem honum dettur í hug. Hér að neðan má sjá skjáskot af OpenAI viðmóti í dag. Skilaboðin eru mjög opin: “What’s on your mind today?” 

Þetta er óskrifað blað. Notendur skynja ótakmarkaða möguleika.

Screenshot 2026-02-20 152006

ChatGPT. Óskrifað blað, ótakmarkaðir möguleikar.  

 

Prófanir

Hvernig prófar maður hugbúnað þar sem inntakið getur verið hvað sem notanda dettur í hug, útkoman er tilviljunum háð og mat á ‘gæðum’ lausnarinnar byggir í þokkabót á huglægu mati? 

Í hefðbundnum hugbúnaði er oft einfalt að prófa. Hér er t.d. einfalt einingapróf notað til að prófa fall sem býr til nýjan notanda.  


43a4d25f-2af3-4aea-86c4-7196fca6b6ff
Klassískt einingapróf

Þú keyrir fallið, athugar hvort notandi sé kominn í gagnagrunn og nú getur þú treyst því að þetta fall virki í þessum aðstæðum til lengri tíma. 

Þegar við skoðum erindreka (e. AI Agents) er markmiðið með keyrslu hans ekki eins einfalt og í add_user fallinu. Erindreki túlkar fyrirspurn notandans, fylgir fyrirmælum forritarans og nýtir tól til að ljúka því verkefni sem notandinn biður um. Gefum okkur t.d. erindreka sem hefur verið beðinn um að greina markaðinn fyrir gervigreind á Íslandi. Vel heppnuð keyrsla fyrir slíkt verkefni er þá ekki jafn auðveldlega skilgreind og fyrir hefðbundnari verkefni sem hugbúnaður leysir, eins og add_user. Hvernig ætlum við að meta hvort greiningin sem erindrekinn skilar sé rétt eða góð? Þar virka einingapróf úr hefðbundnum hugbúnaði ekki eins vel vegna þess að það er engin ein rétt niðurstaða. 

90e79623-5085-4f10-a9e3-4bb7061cdc1a
Óklárað einingapróf fyrir erindreka. Hvernig ætlum við að meta gæði eða réttleika svarsins? 

Huglægt mat í spunagreindarlausnum

Raunveruleikinn er sá að það eru ótal hlutir í spunagreindarlausnum sem byggja á huglægu mati. 

Leitarvélar 
Margar spunagreindarlausnir byggja á leitarvélum sem finna hjálplega textabúta úr undirliggjandi gögnum til að smíða gott svar. Mat á getu þessara leitarvéla byggir á huglægu mati sérfræðinga á því hversu hjálplegir textabútarnir séu. 

Erindreki 
Svaraði erindrekinn spurningu notandans rétt? Hversu rétt? 
Fylgdi hann reglum sem honum var settar í kvaðningu (e.prompt)? 
Gleymdust lykilupplýsingar sem komu fram fyrr í spjallinu? 
Fór erindrekinn með fleipur (e. hallucination)? 
Notaði erindrekinn rétt tól til að klára verkið sem honum var úthlutað? 

Girðingar 
Gripu girðingar réttilega notanda sem var að reyna að brjóta lausnina? 

 

Hvernig leggjum við þá mat á lausn?

Fyrsta nálgun er venjulega að sérfræðingar sem geta metið réttleika svara prófa handvirkt og veita endurgjöf. Hugbúnaðarsérfræðingar bregðast síðan við endurgjöf samkvæmt skilgreindu ferli eða jafnóðum. 

Helsti vandinn við þessa útfærslu er að hún er tímafrek. Í flóknari spunagreindarlausnum með fjölerindrekin kerfi (e. multi-agent system) getur það tekið frá tugum sekúndna og allt að nokkrum mínútum að svara. Uppfærslur geta verið vikulegar eða með nokkurra daga millibili. Það hafa ekki allir tíma til að sinna þeirri prófun og endurgjöf sem þörf er á. Hún er leiðinleg og tímafrek og þess vegna getur líka verið erfitt að fá fólk til að prófa. 

Með þessari útfærslu er einnig erfitt að sýna fram á mælanlegan árangur þar sem prófun er óskipulögð og það vantar samanburðinn á útgáfum lausnar. Mat fer að byggjast á tilfinningu fremur en gögnum. 

Við viljum helst geta sýnt fram á að spunagreindarlausn eða erindreki með ákveðið hlutverk sé að standa sig X% betur en hann gerði áður miðað við skilgreind dæmi sem sérfræðingur var búinn að leggja mat á.  

En hvað er þá til ráða?

Í næsta hluta verður fjallað um leið til þess að leysa þetta vandamál með samvinnu mannlega sérfræðingsins og sérstakra LLM lausna sem meta gæðin.

 

 

  

 

Árið sem Ari fullorðnaðist

Árið sem Ari fullorðnaðist

DataLab byrjaði að vinna með spunagreind (e. generative AI) og gera markvissar tilraunir með tæknina snemma árs 2023, í kjölfar ChatGPT-4. Fljótlega...

Read More
Nordic Visitor: Allt að 60% skjótari svör með aðstoð Ara

1 min read

Nordic Visitor: Allt að 60% skjótari svör með aðstoð Ara

Nordic Visitor innleiddi Ara, spunagreindarlausn DataLab, í starfseminni sinni nýlega og hefur náð að hraða svörun til viðskiptavina um allt að 60%.

Read More
I. Generative AI — Spunagreind: Af hverju núna?

I. Generative AI — Spunagreind: Af hverju núna?

Vangaveltur innblásnar af nýlegum framförum á sviði Generative AI.

Read More