2 min read

Prófanir í heimi spunagreindar | Seinni hluti

Picture of Fannar Freyr Bergmann Fannar Freyr Bergmann : febrúar 27, 2026

Spunagreind Erindrekar

Prófanir í heimi spunagreindar | Seinni hluti

Í fyrri hluta var fjallað um mikilvægi þess að beita skilvirkum aðferðum til að mæla gæði spunagreindarlausna. Við viljum sjá mælanlegan árangur!

En það er þó ekki einfalt vegna sérstakra eiginleika slíkra lausna, sem einnig var fjallað um.

Það er ekki raunhæft að biðja viðskiptavin um að prófa lausn handvirkt og veita endurgjöf eftir hverja einustu uppfærslu. Það er bæði tímafrekt og getur verið ómarkvisst.

En það er til lausn á vandanum og verður henni lýst hér.

Lykilmenn

Sú nálgun sem við hjá DataLab erum að tileinka okkur byggir á þremur lykilmönnum sem verður nánar lýst hér að neðan. Þeir eru:

Domain expert eða sérfræðingur
LLM-as-a-user
LLM-as-a-judge

domain-expert Domain expert

Domain expert er reyndur sérfræðingur - af holdi og blóði - á sama sviði og lausnin starfar á. Hann hefur gott mat á gæðum og réttleika svara og er samkvæmur sjálfum sér.

Sérfræðingurinn hefur þó einn stóran og augljósan veikleika, hann er ekki skalanlegur!

Sérfræðingurinn hefur ekki endalausan tíma til að spjalla við lausnina og sinna prófunum og veita þá endurgjöf sem þörf er á. Tími sérfræðingsins er dýrmætur og hann þarf að nýta vel.

Hugmyndin er því sú að LLM-as-a-user og LLM-as-a-judge taki að sér tvö verkefni sem sérfræðingurinn hefði annars þurft að sinna handvirkt, þ.e. prófanir og endurgjöf

Prófanir

LLM-as-a-user er erindreki (AI Agent) sem spjallar við lausnina á ákveðnum forsendum sem eiga við, er t.d. óþolinmóður, vill endurgreiðslu o.s.frv. LLM-as-a-user býr þannig til raundæmi um það hvernig lausnin svarar, skalast auðveldlega og prófanir ganga því hraðar fyrir sig.

LLM-as-a-user á spjalli við Ara, kollega sinn.

Endurgjöf

LLM-as-a-judge er svo annar erindreki sem hefur það hlutverk að meta samtöl kollega síns svipað og sérfræðingurinn myndi gera. Þegar við erum komin með lausn sem gefur svipað mat og sérfræðingurinn myndi gera en með töluvert meiri hraða getum við jafnvel farið að fá endurgjöf eftir hverja einustu uppfærslu.

LLM-as-a judge, tilbúinn að kveðja upp sinn dóm

Samspil þessara lykilleikmanna

Gefum okkur að við séum komin með frumútgáfu lausnar.

Hvert er þá næsta skref?

Fjölbreyttir, raunverulegir notendaprófílar sem við sjáum fyrir okkur að geti átt samskipti við við spunagreindarlausnina eru búnir til og mállíkan fengið til að eiga samskipti við lausnina líkt og þessir prófílar myndu gera (LLM-as-a-user).

Afurðin eftir þessi samtöl eru raundæmi um það hvernig spunagreindarlausnin svarar sem eru tilbúin í endurgjöf eða mat.

Þá er mannlegi sérfræðingurinn (domain expert) fenginn til að meta spjöllin í byrjun og búa til dæmi um það hvernig hann veitir endurgjöf (einkunnir + athugasemdir).

Þegar við erum komin með einkunnir og athugasemdir sérfræðingsins er hægt að stilla dómgreind LLM-as-a-judge með hliðsjón af niðurstöðum mannlega sérfræðingsins þar til einkunnagjöf og athugasemdir eru orðin keimlík.

Robotic judge with LLM gavel LLM-as-a-judge er mættur til leiks, en nú með eiginleika sérfræðingins (domain expert)

Þá er hægt að panta endurgjöf eins oft og þurfa þykir, jafnvel eftir hverja uppfærslu. Og þá er hægt að sýna fram á mælanlega bætingu lausnar.

Þá er þróunin farin að líta svona út:

UPDATES

Prófílar spjalla við lausn og búa til raundæmi um það hvernig lausn svarar => Þá ertu kominn með dæmi sem er tilbúið í mat => LLM-as-a-judge metur => Endurgjöf sem má mæla.

Okkar reynsla til þessa

Við höfum notað þessa aðferðafræði við þróun spunagreindarlausna, m.a. hjá Nordic Visitor og Virk starfsendurhæfingu. Það er því komin reynsla á aðferðafræðina við raunverulegar aðstæður. Í stuttu máli má segja að þessir leikmenn séu þegar orðnir mikilvægur hlekkur í þróunarferlinu hjá DataLab og styðja þeir afar vel við árangursmiðaða þróun spunagreindarlausna.

Endilega sendið okkur línu á datalab@datalab.is ef þið hafið áhuga á fræðast meira um málið.

1 min read

Prófanir í heimi spunagreindar | Fyrri hluti

Fannar Freyr Bergmann : Feb 23, 2026

Hvernig prófar maður hugbúnað þar sem notandinn getur sett inn þau fyrirmæli sem honum dettur í hug, útkoman er tilviljunum háð og mat á gæðum byggir...

Spunagreind Erindrekar

1 min read

ERINDREKAR | seinni hluti

Binni Borgar : Apr 13, 2026

Nú er komið að því að horfa á það sem er framundan vegna þróunar gervigreindar, mögulegum áhrifum og skynsamlegum viðbrögðum, bæði hvað varðar...

Spunagreind Erindrekar

1 min read

ERINDREKAR | Fyrri hluti

Binni Borgar : Mar 31, 2026

Geta gervigreindar eykst hratt um þessar mundir. Stökkin eru stærri og koma oftar. Mig sundlaði hreinlega einn góðan veðurdag þegar ég var að reyna...

Spunagreind Erindrekar

Prófanir í heimi spunagreindar | Seinni hluti

Lykilmenn

Prófanir

Endurgjöf

Samspil þessara lykilleikmanna

Okkar reynsla til þessa

Vantar þig ráðgjöf?

Prófanir í heimi spunagreindar | Fyrri hluti

ERINDREKAR | seinni hluti

ERINDREKAR | Fyrri hluti