I. Generative AI — Spunagreind: Af hverju núna?

Artificial Intelligence Generative AI

Vangaveltur innblásnar af nýlegum framförum á sviði Generative AI.

Umfjöllun í þremur hlutum og þremur bloggpóstum:

Af hverju erum við að tala um tæknina núna? Þessi póstur sem birtist fyrst á Medium.com 20. apríl 2023.
Hvaðan er hún að koma og hvert er hún að fara?
Hagnýting tækninnar árið 2023

Byrjum á því að velta fyrir okkur af hverju þessi tækni flýgur svona hátt um þessar mundir.

Generative AI

Fram er komin tækni sem les og skrifar stórfínan texta á grundvelli þess sem hún áður las — á hraða tölvunnar. Tækni sem heldur þræði í samtölum og kemur okkur í sífellu á óvart.

Tækni sem jafnvel virðist ‘hugsa’… á hraða tölvunnar.

Þessi eiginleiki — að skapa eða spinna nýjan texta, myndefni og hljóð — hefur fangað hug og hjörtu og nafnið Generative AI hefur því farið á flug.

Fyrst komu LLMs

Frá árinu 2017 hefur nýr flokkur vélnámslíkana þróast á miklum hraða. Þau eru nefnd stór mállíkön eða large language models (LLMs).

Oftar en ekki er um að ræða tauganet (neural networks) sem þjálfuð eru á afar stórum gagnasettum (texta og myndum) og hafa líkönin vaxið hratt og eru nú orðin gríðarstór.

Fjölhæfni er sá eignileiki sem þykir einna áhugaverðastur við þessi líkön. Eitt slíkt líkan getur leyst fjölbreytt málvinnsluverkefni á borð við textaflokkun, textasamantekt, textagerð, textaþýðingar og skrifað forritunarmál.

Tæknin takmarkast ekki við texta og hefur henni verið beitt til að framleiða myndefni og hljóð og nú síðast tónlist.

Fyrirtækið OpenAI og GPT líkön þeirra hafa verið leiðandi í þessari þróun og sýnir myndin hér að neðan nett yfirlit um þróunina frá stofnun fyrirtæksins árið 2015. Á þeim tíma hefur mállíkan þeirra, GPT sem stendur fyrir general pre-trained transformer, þróast í nokkrum útgáfum og samhliða hefur geta þeirra til að leysa ýmis málvinnsluverkefni aukist.

Á myndinni má sjá línuna verða græna um mitt ár 2022 en þá fyrst má segja að tæknin hafi náð til almennings. Fyrst með text-to-image þjónustum á borð við Stable Diffusion, Midjourney og DALL-E sem einnig kemur frá OpenAI, og svo með ChatGPT undir lok árs 2022. Þá má segja að heimbyggðin hafi tekið rækilega eftir enda voru notendurnir fljótlega orðnir yfir 100 milljónir á heimsvísu.

Myndin hér a neðan lýsir þróuninni frá miðju ári 2022, frá text-to-image þjónustum yfir í GPT4 sem nú lærir íslensku í samstarfi við Miðeind.

Pásu núna!

29. mars 2023 birtist opið bréf í fjölmiðlum þar sem framáfólk í vísinda- og tæknisamfélaginu hvetur aðila til að hætta þróun tækninnar tímabundið:

“Recent months have seen AI labs locked in an out-of-control race to develop and deploy ever more powerful digital minds that no one — not even their creators — can understand, predict, or reliably control”.
“Powerful AI systems should be developed only once we are confident that their effects will be positive and their risks will be manageable.”

Það er klárt mál að þessir aðilar telja tæknina öfluga og mögulega hættulega og vilja því stíga varlega niður. Samlíkingar við kjarnorku hafa verið notaðar.

Sam Altman (f. 1985) er CEO hjá OpenAI. Hann kom fram í hlaðvarpi Lex Fridman í mars 2023 og þar ræddu þeir félagar m.a. hvort GPT4 væri mögulega AGI eða artificial general intelligence, gervigreind sem jafnast á við mannlega greind.

“Do you think GPT4 is an AGI?”
Altman: “I think we are getting into the phase where specific definitions og AGI really matter….
If I were reading a sci-fi book and there was a character that was an AGI and that character was GPT4 I’d be like, this is a shitty book.”

Svo mörg voru þau orð en þeim fannst báðum stórmerkilegt að þeir væru yfirhöfuð að velta þessu fyrir sér og hvorugur þeirra vildi slá út af borðinu að GPT4 væri komin inn á AGI rófið.

Það er saga til næsta bæjar og skýrir líklega bréfið sem áður var nefnt og yfir 1000 aðilar skrifuðu undir.

Við höfum ekki verið hér áður

70 árum eftir að hugmyndin um gervigreind kom fram, erum við farin að sjá eitthvað slíkt teiknast upp fyrir framan augun á okkur?

Tölvur eru farnar að herma ískyggilega vel eftir mannlegum eiginleika sem við tengjum við greind — mannlega greind — og varðar notkun okkar á tungumáli og hugsun.

Og nú er hún komin í hendurnar á okkur.

Hvað gerist þegar við færum ‘digital minds’ í hendurnar á fólki eða leyfum fyrirtækjum og stjórnvöldum að hagnýta slíka tækni?

Eigum við bara að kýla á það?

Eða kannski staldra aðeins við og leyfa almenningi, regluverkinu og eftirlitsaðilum að bregðast við?

Ef það er þá yfirhöfuð hægt.

Það er nefnilega svo að þessi tækni kemur í sífellu á óvart, er óútreiknanleg, en þegar hafa komið fram nokkrir áhættuþættir vegna hagnýtingar hennar sem eiga við hér og nú:

Hvers markmið hefur hún að leiðarljósi? (alignment problem)
Enn meiri upplýsingaóreiða (simulated content)
Upplýsingaöryggi og persónuvernd
Höfundarréttur

Þessir áhættuþættir voru þegar komnir fram í stafrænum heimi en spunagreindin er svo sannarleg olía á eldinn.

Tölum aðeins um upplýsingaóreiðu

David Mattin skrifar:

“At this point we’ve pretty much entirely scrambled the role that the photograph once played in our culture as a form of proof or marker of veracity.
Experts fear the technology could hasten an erosion of trust in media, in government and in society. If any image can be manufactured — and manipulated — how can we believe anything we see?”
The tools are going to get better, they’re going to get cheaper, and there will come a day when nothing you see on the internet can be believed”.

Myndir af páfanum í nýju úlpunni sinni eða að sötra bjór á pöbbnum eru góð dæmi um spunamyndir sem fóru á flug. Saklaust grín myndi einhver segja en það er auðvelt að sjá fyrir sér tæknina notaða til að koma höggi á fólk og valda ringulreið í stjórnmálum.

Við getum líka talað um Alignment Problem

Hvers markmið eða hagmunir ráða ferðinni? Er það hagsmunir stórfyrirtækja eða einræðisstjórna fremur en hagsmunir almennings?

Á meðan regluverkið nær ekki utan um tæknina er það líkleg niðurstaða.

Nýlega gáfu kínversk stjórnvöld út að allar slíkar þjónustur í Kína þyrftu að endurspegla grunngildi ríkisins og þeirrar hugmyndafræði sem þar ríkir. Auðvitað munu yfirvöld víðs vegar um heim gera það sama.

Tímamót? Tímamótatækni

Vissulega er tæknin á fullu skriði og hæpið er mikið. Stemmingin þykir minna á árdaga internetsins á árunum 1995 til 2000. Margir hoppa á vagninn því það þykir betra en að gera ekki neitt.

En eru þetta tímamót?

Já, framfarir í gervigreindartækni hafa verið miklar undanfarin 10–20 ár og nú virðist sem hún sé komin yfir ákveðinn hjalla. Héðan í frá mun hún sigla langt fram úr okkur á mörgum sviðum og það verður beinlínis ómótstæðilegt að hagnýta hana til að auka skilvirkni í rekstri, gæði þjónustu og flýta fyrir framförum í vísindum, rannsóknum og þróun. Það eru jákvæðu hliðarnar. Hinar neikvæðu verða líka ómótstæðilegar þeim sem hafa slík markmið.

Það hefur einnig tekist að hjúpa tæknina í afar gott notendaviðmót sem gerir almenningi kleift að nota hana í leik og starfi. Það er líka tímamót.

Næst: Hvaðan er hún að koma og hvert er hún að fara?

Tæknin á sér langan aðdraganda og ef hann er skoðaður má e.t.v. átta sig betur á því hvert hún stefnir. Nánar veður fjallað um þau mál í næsta pósti um Generative AI — Spunagreind.

Deila grein

Fleiri greinar

Ari margfaldar afköst sérfræðinga

júní 2, 2024

Ari er hugbúnaðarlausn sem DataLab kynnti fyrr á árinu. Ari nýtir nýjustu tækni spunagreindar og hannaður til að verða sannkallaður sérfræðingur í þeirri starfsemi sem hann fær þjálfun í. Brynjólfur Borgar, stofnandi DataLab, segir frá Ara og lýsir hvernig geta hans muni þróast hratt á næstu mánuðum.

Lesa meira »