1 min read
Spálíkön á fleygiferð
Spálíkön eru ennþá kúl og nú höfum við komið 10 ára reynslu í þróun spálíkana fyrir í heildarpakka. Með þessu getum við boðið betri lausnir á...
Hversu langt er hægt að ganga í því að endurnýta kóða á milli spálíkana?
Bergur Tareq Tamimi, sérfræðingur á sviði gagnaverkfræði og gervigreindar, fjallar um hvernig DataLab hefur þróað ML-template sem flýtir verulega fyrir þróun vélrænna gagnanámslausna og eykur skilvirkni í öllum verkefnum.
Ýmsa hefur lengi langað til að nýta spálíkön og vélrænt gagnanám í starfsemi sinni. Þá er tilgangurinn oftast betri spár, markvissari ákvarðanir og aukin skilvirkni.
Fljótlega kynnast margir þeim grimma veruleika að innleiðing á alvöru lausnum er flókin, tímafrek og krefst töluverðrar sérþekkingar.
Verkefnið verður ekki einfaldara þegar lausnir þurfa að keyra alfarið á skýjainnviðum viðskiptavinarins, til dæmis vegna öryggis- og persónuverndarkrafna. Þá þarf að huga að aðgangsstýringum, gagnainnviðum, rekstri og viðhaldi, ofan á sjálfa líkanasmíðina.

Við hjá DataLab höfum þróað spálíkön og ML-lausnir í um áratug. Á þeim tíma hefur tæknin tekið miklum framförum. Verkfæri, skýjalausnir og staðlar hafa þroskast það mikið að í dag er loksins raunhæft að nálgast ML-þróun með svipuðum hætti og hefðbundna hugbúnaðarþróun. Það þýðir þó ekki að spálíkön séu orðin að einfaldri hilluvöru sem hægt er að setja upp án aðlögunar en það þýðir að við getum byggt ofan á traustum og endurnýtanlegum grunni.
Allt frá stofnun hefur DataLab þróað og innleitt lausnir byggðar á vélrænu gagnanámi (e. Machine Learning). Verkefnin hafa verið af ýmsum toga og snert ólíkar atvinnugreinar, meðal annars:
Þrátt fyrir að sumir haldi að slík verkefni snúist einfaldlega um að tengja líkan við gögn með einföldum dataframe og birta niðurstöður, er raunveruleikinn oft töluvert flóknari. Í flestum tilvikum felst meginvinnan í því að byggja upp traustan og öruggan grunn sem gerir líkaninu kleift að skila raunverulegu virði.
Í verkefnum okkar hjá Datalab höfum við yfirleitt þurft að:
Þessi verkefni eru í eðli sínu ólík, enda spila fjölmargir þættir inn í: staðsetning gagna, viðkvæmni þeirra, gæði og magn, ásamt því hvernig niðurstöðurnar eru nýttar í rekstri. Af þessum sökum hefur oft verið krefjandi að endurnýta lausnir milli verkefna og þannig bæta verklag kerfisbundið. Þetta er þó einmitt það sem við hjá DataLab höfum einbeitt okkur að síðustu mánuði.

Niðurstaðan er nýtt ML-template sem flýtir verulega fyrir þróun vélrænna gagnanámslausna og eykur skilvirkni í öllum verkefnum. Template-ið byggir á Terraform og Databricks Asset Bundles og gerir kleift að koma Databricks-innviðum hratt í gagnið, með áherslu á rétta aðgangsstýringu, hentugar cluster-stillingar, kostnaðarstýringu og öryggi. Til að tryggja skalanlega vinnslu á miklu gagnamagni er notast við Apache Spark, sem er meðal öflugustu lausna á markaðnum.
Í kjölfarið keyra sjálfvirkar gagnapíplínur sem sjá meðal annars um að:
Með þessu verklagi getum við unnið ný ML-verkefni á hraðari, öruggari og áreiðanlegri hátt en áður. Það gerir okkur kleift að einbeita okkur enn frekar að því sem skiptir mestu máli: að skila viðskiptavinum DataLab lausnum sem skapa raunverulegt virði og styðja við betri ákvarðanatöku.
1 min read
Spálíkön eru ennþá kúl og nú höfum við komið 10 ára reynslu í þróun spálíkana fyrir í heildarpakka. Með þessu getum við boðið betri lausnir á...
1 min read
Gervigreindarlausnir snúast í eðli sínu um að leysa hið ófyrirséða. Hvernig breytir það nálgun okkar á þróun þeirra? Sigurður Óli Árnason,...