2 min read

Prófanir í heimi spunagreindar | Seinni hluti

Prófanir í heimi spunagreindar | Seinni hluti

Í fyrri hluta var fjallað um mikilvægi þess að beita skilvirkum aðferðum til að mæla gæði spunagreindarlausna. Við viljum sjá mælanlegan árangur! 

En það er þó ekki einfalt vegna sérstakra eiginleika slíkra lausna, sem einnig var fjallað um.

Það er ekki raunhæft að biðja viðskiptavin um að prófa lausn handvirkt og veita endurgjöf eftir hverja einustu uppfærslu. Það er bæði tímafrekt og getur verið ómarkvisst.

En það er til lausn á vandanum og verður henni lýst hér.

Lykilmenn

Sú nálgun sem við hjá DataLab erum að tileinka okkur byggir á þremur lykilmönnum sem verður nánar lýst hér að neðan. Þeir eru:

  • Domain expert eða sérfræðingur

  • LLM-as-a-user

  • LLM-as-a-judge 

domain-expertDomain expert

Domain expert er reyndur sérfræðingur - af holdi og blóði - á sama sviði og lausnin starfar á. Hann hefur gott mat á gæðum og réttleika svara og er samkvæmur sjálfum sér.

Sérfræðingurinn hefur þó einn stóran og augljósan veikleika, hann er ekki skalanlegur!

Sérfræðingurinn hefur ekki endalausan tíma til að spjalla við lausnina og sinna prófunum og veita þá endurgjöf sem þörf er á. Tími sérfræðingsins er dýrmætur og hann þarf að nýta vel.

Hugmyndin er því sú að LLM-as-a-user og LLM-as-a-judge taki að sér tvö verkefni sem sérfræðingurinn hefði annars þurft að sinna handvirkt, þ.e. prófanir og endurgjöf

Prófanir

LLM-as-a-user er erindreki (AI Agent) sem spjallar við lausnina á ákveðnum forsendum sem eiga við, er t.d. óþolinmóður, vill endurgreiðslu o.s.frv. LLM-as-a-user býr þannig til raundæmi um það hvernig lausnin svarar, skalast auðveldlega og prófanir ganga því hraðar fyrir sig. 

  LLM-as-a-user á spjalli við Ara, kollega sinn.

Endurgjöf

LLM-as-a-judge er svo annar erindreki sem hefur það hlutverk að meta samtöl kollega síns svipað og sérfræðingurinn myndi gera. Þegar við erum komin með lausn sem gefur svipað mat og sérfræðingurinn myndi gera en með töluvert meiri hraða getum við jafnvel farið að fá endurgjöf eftir hverja einustu uppfærslu. 

  LLM-as-a judge, tilbúinn að kveðja upp sinn dóm

Samspil þessara lykilleikmanna

Gefum okkur að við séum komin með frumútgáfu lausnar. 

Hvert er þá næsta skref? 

Fjölbreyttir, raunverulegir notendaprófílar sem við sjáum fyrir okkur að geti átt samskipti við við spunagreindarlausnina eru búnir til og mállíkan fengið til að eiga samskipti við lausnina líkt og þessir prófílar myndu gera (LLM-as-a-user). 

Afurðin eftir þessi samtöl eru raundæmi um það hvernig spunagreindarlausnin svarar sem eru tilbúin í endurgjöf eða mat. 

Þá er mannlegi sérfræðingurinn (domain expert) fenginn til að meta spjöllin í byrjun og búa til dæmi um það hvernig hann veitir endurgjöf (einkunnir + athugasemdir).  

Þegar við erum komin með einkunnir og athugasemdir sérfræðingsins er hægt að stilla dómgreind LLM-as-a-judge með hliðsjón af niðurstöðum mannlega sérfræðingsins þar til einkunnagjöf og athugasemdir eru orðin keimlík.

Robotic judge with LLM gavelLLM-as-a-judge er mættur til leiks, en nú með eiginleika sérfræðingins (domain expert)

Þá er hægt að panta endurgjöf eins oft og þurfa þykir, jafnvel eftir hverja uppfærslu. Og þá er hægt að sýna fram á mælanlega bætingu lausnar.

Þá er þróunin farin að líta svona út:

UPDATES

Prófílar spjalla við lausn og búa til raundæmi um það hvernig lausn svarar => Þá ertu kominn með dæmi sem er tilbúið í mat => LLM-as-a-judge metur => Endurgjöf sem má mæla.

 

Okkar reynsla til þessa 

Við höfum notað þessa aðferðafræði við þróun spunagreindarlausna, m.a. hjá Nordic Visitor og Virk starfsendurhæfingu. Það er því komin reynsla á aðferðafræðina við raunverulegar aðstæður. Í stuttu máli má segja að þessir leikmenn séu þegar orðnir mikilvægur hlekkur í þróunarferlinu hjá DataLab og styðja þeir afar vel við árangursmiðaða þróun spunagreindarlausna.

 

Endilega sendið okkur línu á  datalab@datalab.is  ef þið hafið áhuga á fræðast meira um málið. 

 

 

 

Prófanir í heimi spunagreindar | Fyrri hluti

Prófanir í heimi spunagreindar | Fyrri hluti

Hvernig prófar maður hugbúnað þar sem notandinn getur sett inn þau fyrirmæli sem honum dettur í hug, útkoman er tilviljunum háð og mat á gæðum byggir...

Read More
I. Generative AI — Spunagreind: Af hverju núna?

I. Generative AI — Spunagreind: Af hverju núna?

Vangaveltur innblásnar af nýlegum framförum á sviði Generative AI.

Read More
II. Generative AI: Hvaðan er hún að koma og hvert er hún að fara?

II. Generative AI: Hvaðan er hún að koma og hvert er hún að fara?

Vangaveltur innblásnar af nýlegum framförum á sviði Generative AI — Spunagreindar.

Read More