Hversu langt er hægt að ganga í því að endurnýta kóða á milli spálíkana?
Bergur Tareq Tamimi, sérfræðingur á sviði gagnaverkfræði og gervigreindar, fjallar um hvernig DataLab hefur þróað ML-template sem flýtir verulega fyrir þróun vélrænna gagnanámslausna og eykur skilvirkni í öllum verkefnum.
Grimmur veruleiki spálíkana
Ýmsa hefur lengi langað til að nýta spálíkön og vélrænt gagnanám í starfsemi sinni. Þá er tilgangurinn oftast betri spár, markvissari ákvarðanir og aukin skilvirkni.
Fljótlega kynnast margir þeim grimma veruleika að innleiðing á alvöru lausnum er flókin, tímafrek og krefst töluverðrar sérþekkingar.
Verkefnið verður ekki einfaldara þegar lausnir þurfa að keyra alfarið á skýjainnviðum viðskiptavinarins, til dæmis vegna öryggis- og persónuverndarkrafna. Þá þarf að huga að aðgangsstýringum, gagnainnviðum, rekstri og viðhaldi, ofan á sjálfa líkanasmíðina.

Hér má sjá platform teymi DataLab sem sér um ops og engineering hluta AI lausna DataLab.
Frá vinstri: Bergur Tareq Tamimi, Dennis Mattsson og Kristofer Gauti Þórhallsson
Tækifæri í framþróun tækninnar
Við hjá DataLab höfum þróað spálíkön og ML-lausnir í um áratug. Á þeim tíma hefur tæknin tekið miklum framförum. Verkfæri, skýjalausnir og staðlar hafa þroskast það mikið að í dag er loksins raunhæft að nálgast ML-þróun með svipuðum hætti og hefðbundna hugbúnaðarþróun. Það þýðir þó ekki að spálíkön séu orðin að einfaldri hilluvöru sem hægt er að setja upp án aðlögunar en það þýðir að við getum byggt ofan á traustum og endurnýtanlegum grunni.
Allt frá stofnun hefur DataLab þróað og innleitt lausnir byggðar á vélrænu gagnanámi (e. Machine Learning). Verkefnin hafa verið af ýmsum toga og snert ólíkar atvinnugreinar, meðal annars:
- Meðmælakerfi fyrir Domino’s og BYKO
- Spálíkön fyrir Orku Náttúrunnar, Fjársýslu ríkisins, Skattinn, Landspítalann og Veitur
- Áhættumat fyrir Inkasso
Undirbúningurinn er tímafrekur
Þrátt fyrir að sumir haldi að slík verkefni snúist einfaldlega um að tengja líkan við gögn með einföldum dataframe og birta niðurstöður, er raunveruleikinn oft töluvert flóknari. Í flestum tilvikum felst meginvinnan í því að byggja upp traustan og öruggan grunn sem gerir líkaninu kleift að skila raunverulegu virði.
Í verkefnum okkar hjá Datalab höfum við yfirleitt þurft að:
- Tengjast skýjaumhverfi viðskiptavinar
- Setja upp innviði (í okkar tilviki Databricks)
- Tengja og samræma gagnalindir
- Vinna og hreinsa gögn þannig að þau nýtist líkaninu
- Þjálfa líkan
- Keyra spár sjálfvirkt með reglulegu millibili
- Meta frammistöðu líkansins og fylgjast með gæðum niðurstaðna
Þessi verkefni eru í eðli sínu ólík, enda spila fjölmargir þættir inn í: staðsetning gagna, viðkvæmni þeirra, gæði og magn, ásamt því hvernig niðurstöðurnar eru nýttar í rekstri. Af þessum sökum hefur oft verið krefjandi að endurnýta lausnir milli verkefna og þannig bæta verklag kerfisbundið. Þetta er þó einmitt það sem við hjá DataLab höfum einbeitt okkur að síðustu mánuði.

Við notum Terraform og Databricks til að flýta fyrir þróun lausna
ML-template styttir tímann
Niðurstaðan er nýtt ML-template sem flýtir verulega fyrir þróun vélrænna gagnanámslausna og eykur skilvirkni í öllum verkefnum. Template-ið byggir á Terraform og Databricks Asset Bundles og gerir kleift að koma Databricks-innviðum hratt í gagnið, með áherslu á rétta aðgangsstýringu, hentugar cluster-stillingar, kostnaðarstýringu og öryggi. Til að tryggja skalanlega vinnslu á miklu gagnamagni er notast við Apache Spark, sem er meðal öflugustu lausna á markaðnum.
Í kjölfarið keyra sjálfvirkar gagnapíplínur sem sjá meðal annars um að:
- Meta gæði og uppbyggingu source-gagna
- Framkvæma forvinnslu gagna
- Útbúa eiginleika úr gögnum (feature engineering)
- Þjálfa líkan
- Keyra niðurstöður líkansins
- Framkvæma sjálfvirkt mat á frammistöðu þess
Með þessu verklagi getum við unnið ný ML-verkefni á hraðari, öruggari og áreiðanlegri hátt en áður. Það gerir okkur kleift að einbeita okkur enn frekar að því sem skiptir mestu máli: að skila viðskiptavinum DataLab lausnum sem skapa raunverulegt virði og styðja við betri ákvarðanatöku.
Við leggjum alvöru metnað í þessa tækni og viljum endilega heyra í þeim aðilum sem sjá tækifæri í hagnýtingu hennar.
Nánar má lesa um Predictive AI lausnir DataLab hér.
Vantar þig ráðgjöf?
Frá óvissu til árangurs í þróun gervigreindarlausna
Gervigreindarlausnir snúast í eðli sínu um að leysa hið ófyrirséða. Hvernig breytir það nálgun okkar á þróun þeirra? Sigurður Óli Árnason,...
Spálíkön og Spunagreind
Í hverri viku eigum við samtöl við aðila sem leita til okkar vegna mikils áhuga á að hagnýta gervigreind í starfseminni.
Bergur Tareq Tamimi