Gagnasmiðjur eru samsetningarverkstæði snjallra lausna

Það er ekki heiglum hent að setja sig inn í hraða þróun og harða samkeppni á markaði með gagnalausnir. Tækninni fleygir hratt fram á sama tíma og stafræn umbreyting hefur víðast verið sett á dagskrá fyrr en ætlað var, þökk sé Covid-19.

Í dag eru því mörg fyrirtæki og stofnanir að taka fyrstu skrefin og fikra sig í átt að gagnadrifnum snjalllausnum. En tæknin er framandi, margvísleg og síbreytileg, hæfir gagnasérfræðingar og forritarar eru af skornum skammti og óvissuþættir margir, til dæmis hvað varðar regluverk, eftirlit og rekjanleika gagnalausna.

Til að koma til móts við þessar áskoranir og fleiri, hafa á undanförnum árum sprottið fram fyrirtæki sem bjóða lausnir til að einfalda þróun gagnalausna í öruggu og notendavænu umhverfi.

Þetta eru svokallaðar gagnasmiðjur (e. data science & machine learning platforms, DSMLs).

Við ætlum að fjalla um þær í þessum pistli.

HELSTU PUNKTAR TIL AÐ TAKA MEÐ:

  • Gagnasmiðjur samanstanda af kjarnahugbúnaði ásamt tengdum kóðasöfnum og tæknilausnum þriðju aðila sem hægt er að tengja inn í lausnina
  • Gagnasmiðjur auðvelda og flýta fyrir þróun gagnalausna með betri hreinsun gagna, aðgengi að nýjustu tækni og vinnusvæði sem eru hönnuð fyrir notendur með fjölbreyttan tæknigrunn
  • Dataiku, samstarfsaðili Datalab, er ein af fremstu gagnasmiðjum í heimi

Er fyrirtæki þitt tilbúið fyrir gervigreindarbyltinguna? Hjá DataLab starfa sérfræðingar á sviði hagnýtingar gagna í snjöllum lausnum sem m.a. aðstoða við stefnumótun, fræðslu og leiðsögn vegna hagnýtingar slíkra lausna. Hafðu samband og fáðu stutta kynningu á möguleikum gagnadrifinna og snjallra lausna þér að kostnaðarlausu.

Mynd: onurdongal, Getty Images via Canva Pro

HVAÐ ERUM VIÐ AÐ TALA UM NÁKVÆMLEGA?

Gartner skilgreinir gagnasmiðjur (e. Data Science & Machine Learning platform, DSML) sem miðlæga hugbúnaðaralausn sem studd er af ýmsum tengdum lausnum, kóðasöfnum (e. libraries) og gagnarömmum (e. frameworks). 

Nánar tiltekið er um að ræða hugbúnað sem býður möguleika annars vegar á að smíða gagnalausnir úr ólíkum einingum eða lausnum og hins vegar að tengja slíkar lausnir við viðskiptaferla í innviðum og vöruþróun.

Þetta eru því eins konar samsetningar- eða smíðaverkstæði sem notast við efnivið (gögn) og tól og tæki (ýmist eigin, að láni eða leigð), til að sérsmíða lausnir fyrir tiltekin verkefni.

Dataiku hefur teiknað upp nokkurs konar landakort yfir ólíkar gagnalausnir (sjá Mynd 1: Teknóslavía). Eins og sjá má er mikil fjölbreytni á þessum ört vaxandi markaði.

Mynd 1: Teknóslavía.

Gagnasmiðjur virka líkt og samgöngukerfi sem tengja öll þessi svæði saman og auðveldar þannig flæði og samstarf milli þeirra. Í praxis gera gagnasmiðjur gagnateymum mögulegt vinna að misjöfnum gagnaverkefnum, með ólíkum verkfærum, í einu og sama vinnuumhverfinu.

Þetta einfaldar ekki aðeins starf gagnateyma heldur gerir þeim kleift að njóta örrar þróunar fjölmargra þjónustuaðila á markaði. Smiðjurnar eru fasti punkturinn, vettvangurinn þar sem unnið er með gögnin með þeim tólum sem best nýtast í hverju verkefni.

FYRIR HVERN?

Helstu notendur slíkra smiðja er ýmiss konar fagfólk í gagnavinnslu; gagnavísindamenn, gagnaverkfræðingar, forritarar og sérfræðingar í vélnámi, en einnig stækkandi hópur gagnaleikmanna (e. citizen data scientists) sem hafa ekki sérhæfðan bakgrunn í gagnavísindum, en smíða engu að síður og nota gagnalausnir til að leysa verkefni í rekstri.

Hinir síðastnefndu, þ.e. gagnaleikmenn, gegna sífellt stærra hlutverki í þróun snjallra gagnalausna og notkun þeirra í raunverulegum viðfangsefnum – einmitt fyrir tilstilli gagnasmiðjanna.

HELSTU VIÐFANGSEFNI GAGNASMIÐJA

Gagnasmiðjurnar hafa ólíka sérhæfingu og miða á mismunandi markaði, sérstaklega smærri aðilar. Flestar bjóða þær gagnahreinsun og -flokkun, sem er forsenda þess að hægt sé að byrja smíði á snjöllum lausnum. 

Þá hafa þær flestar úrval reiknirita í boði til að nota á gagnasöfnin. Margar bjóða þær einnig rekstur gagnasafna og vélnámslausna (e. DataOps/MLOps). 

Notendavænstu smiðjurnar hafa náð langt í þróun lesborða (e dash-boards) og appa, sem birta niðurstöður reikniritanna á myndrænan og skýran hátt.

“Ég held að á næsta ári og næstu ár muni gagnabyltingin keyra áfram stafræn umbreytingarferli […] eina leiðin til að aðlagast og breytast er að nýta gögn og rýna í framtíðarmöguleika með því að beita spálíkönunum og gervigreind. Þessir þættir munu skera úr um hverjir standa uppi sem sigurvegarar í hinum nýja stafræna heimi.”

Debanjan Saha, aðstoðarforstjóri gagnagreiningar hjá Google Cloud, í viðtali við TechRepublic.

AF HVERJU AÐ NOTA GAGNASMIÐJUR?

Mikill vöxtur hefur verið í starfsemi gagnasmiðja undanfarin ár, líkt í öðrum geirum sem tengjast stafrænni umbreytingu atvinnulífsins. Vöxturinn fylgir því markaðnum, en það eru einnig aðrar ástæður fyrir því að sífellt fleiri fyrirtæki sjá sér hag í því að nýta slíkar smiðjur.

Skortur á forriturum og gagnasérfræðingum

Allt útlit er fyrir mikinn skort á hæfum gagnavísindamönnum og sérfræðingum á sviði gervigreindar næstu árin, sé litið til umfangs hinar stafrænu umbyltingar sem framundan er.

Ein leið út úr þeim vanda er að gera lausnirnar aðgengilegri fyrir fleiri starfsmenn með annars konar tækniþekkingu. Þetta hefur verið kallað almannavæðing (e. democratization) gagnalausna. Gagnasmiðjurnar einfalda og auðvelda  til dæmis gagnahreinsun og -flokkun, sem og uppsetningu gagnarása (e. data pipelines).

Tengingar við fjölbreyttar lausnir og eigin gagnasöfn

Með því að nýta smiðjurnar geta fyrirtæki gengið að nýjustu og bestu tæknilausnum á hverjum tíma, sem bjóða tengingar þar inn. Á sama hátt er hægt að tengjast alls kyns SaaS þjónustum sem safna gögnum fyrir fyrirtækið, til dæmis CRM kerfi.

Samstarfsvettvangur og notendastýring

Bestu smiðjurnar eru hannaðar til að vera samstarfsvettvangur ólíkra sérfræðinga og hagsmunaaðila, ekki aðeins gagnavísindamanna og forritara, heldur einnig ýmiss konar notenda eins og markaðs- og fjármálagreinenda. Í gagnasmiðjum er einnig hægt að skilgreina réttindi notenda, til dæmis hvaða verkefni þeir hafi lesaðgang að og hvaða verkefnum þeir megi breyta. 

Síbreytilegt regluverk og rekjanleiki

Til að uppfylla ýmis lagaleg skilyrði og staðla þarf að vera hægt að taka út reiknirit og rekja hvernig snjalllausnir komast að sínum niðurstöðum. Gagnasmiðjur bjóða umhverfi og verkefnalýsingar sem er aðgengilegt fyrir úttektaraðila að rekja sig eftir, ef nauðsyn krefst.

HVAÐ BER AÐ HAFA Í HUGA VIÐ VAL Á GAGNASMIÐJU?

Það er ekki einfalt, ekki einu sinni fyrir innvígða, að átta sig á öllum valkostum þegar gagnasmiðjur eru annars vegar. Þeir sem ætla sér að velja sjálfir smiðju til að skipta við eiga ekki auðvelt verkefni fyrir höndum. 

Hvaða eiginleika þarf að taka til greina og hvaða eiginleikar eru mikilvægastir?

Val á gagnasmiðju veltur á forsendum hvers fyrirtækis, ekki síst á því hvaða þekking, innviðir og úrræði eru fyrir hendi, og hvernig gagnastrúktur fyrirtækisins er fyrirkomið. 

Samþættingargeta er einn þáttur til að skoða: Er hægt að smíða lausn frá upphafi til enda í smiðjunni með tengdum lausnum eða þarf að yfirgefa kerfið til að klára verkefnið?

Notendaviðmót skiptir líka máli. Hverjir munu nota kerfið? Eru það þaulreyndir gagnasérfræðingar eða fólk með annan bakgrunn? Þróuðustu smiðjurnar, að mati Gartner, eru hannaðar til að forritarar, gagnavísisindamenn og gagnaleikmenn geti átt samstarf um þróun lausna.  

Það er vegna þess háttar óvissu og áhættu sem úttektir hlutlausra greiningarfyrirtækja eins og Gartner hafa mikla þýðingu. Meðal árlegra úttekta Gartner er Töfraferningur ( eða „Magic Quadrant“) yfir gagnasmiðjur, sem mikið er vísað til.

HELSTU AÐILAR Á MARKAÐI

Helstu aðilar á gagnasmiðjumarkaði eru tæknirisar sem byggja á langri hefð, eins og SAS, Microsoft og IBM, aðrir risar með styttri sögu eins og Google og Amazon, og önnur smærri en öflug fyrirtæki eins og Alteryx, DataRobot, H2O.ai, Databricks og Dataiku (sjá Mynd 2 fyrir neðan)

Mynd 2: Keppinautar á markaði með gagnasmiðjur.

DATAIKU ER SAMSTARFSAÐILI DATALAB

Dataiku er leiðtogi á markaði gagnasmiðjanna annað árið í röð, samkvæmt Töfraferningi Gartner (sjá mynd fyrir ofan). Kjarnavara þeirra er „Data Science Studio“, DSS, sem er allsherjar samsetningarverkstæði fyrir hvers kyns gagnalausnir og íhluti.  Sérstaða Dataiku felst í áherslu á þverfagleg teymi, samvinnu og þægilegt notendaviðmót

Dataiku er með viðskiptavini úr mjög ólíkum geirum sem staðsettir eru vítt og breitt um heiminn, og hefur því reynslu af verkefnum þar sem eru mjög ólíkar þarfir og kröfur.

Gartner nefnir sérstaklega í úttekt sinni að framtíðarsýn og þróunaráætlun (e. product roadmap) Dataiku sé mjög metnaðarfull og skýr, ekki síst hvað varðar samfélagslega ábyrga notkun gervigreindar og samstarf ólíkra tæknisviða. Þessi niðurstaða Gartner er reyndar í takt við mat markaðarins enda hefur Dataiku vaxið hratt undanfarin ár og laðað að sér öfluga fjárfestingarsjóði sem veðja á framtíð fyrirtækisins.

FRAMTÍÐARMÚSÍKIN ER RÉTT HANDAN VIÐ HORNIÐ

Eins og Gartner bendir á í yfirferð sinni eru margar spennandi nýjungar á áætlun hjá helstu gagnasmiðjunum. Sumar eru á svipaðri vegferð og stefna á sambærilegar uppfærslur, en einnig má greina þróun í átt að meiri sérhæfingu eftir því sem markaðurinn þróast og þjónustuaðilum fjölgar.

Sú aðgreining felst meðal annars í misþróuðu notendaviðmóti, sjálfvirku vélanámi (e. AutoML), afkastagetu og skalanleika, stuðningi við blandað og fjölskýjaumhverfi og getu til að bjóða háþróuð djúptauganet.

Þær smiðjur sem ná forskoti á næstu árum verða trúlega þær sem bjóða upp á mikla aðlögunarhæfni og framúrskarandi notendaviðmót, þannig að gagnasérfræðingar í fremstu röð (sem mikill skortur er á) jafnt sem gagnaleikmenn geti nýtt sér þjónustu slíkra smiðja.

AÐ LOKUM

Framtíðin í þróun gagnalausna liggur tvímælalaust í gagnasmiðjum sem auðvelda mjög og flýta fyrir þróun slíkra lausna. Það gera þær með því að bjóða upp á háþróað, notendavænt vinnuumhverfi þar sem er aðgengi að bestu tæknilausnum sem í boði eru hverju sinni á markaðnum. 

Þær smiðjur sem skara fram úr í dag og næstu ár, að mati Gartner, eru fyrirtæki eins og Dataiku, sem leggja áherslu á umhverfi þar sem margs konar tæknifólk og greinendur geta unnið saman að þróun og framleiðslu lausna.

Heimildir og ítarefni:

Technoslavia: The (Fragmented) World of Data Infrastructure in 2020

6 modern data stack trends to look for in 2021

The Gartner 2021 Magic Quadrant for Data Science and ML Platforms

Data Science and Machine Learning (ML) Platforms Reviews 2021

Choosing a DSML platform

ZDNet McDonald’s wants to ‘democratise’ machine learning for all users across its operations

How AI Democratization Will Change the Way Analysts Work

The Dataiku Story