Erottajankatu 19 B 7 00130 HKI
0405968382
info@oodles.fi

Bob the HR guy-projekti, osa 3: Netin käyttö

Johdanto

Tervetuloa kolmanteen osaan Bob the HR guy-projektin esittelyä. Tässä osassa käydään läpi tekoälytyöntekijä Bob the HR guyn netin käyttöä. Mitä se siellä tekee ja miten nettisurffailu työaikana hyödyttää Bobia kasvamaan paremmaksi työntekijäksi.

Bob kilpailee työssään saman alan ihmisiä vastaan. Kilpailijoiden etu on se, että heillä on oikeat aivot, joista on valtavasti hyötyä, kun pitää löytää sopivimmat vuokrakonsulttiehdokkaat eri hakuihin. Bobin etu on se, että ihmiset ovat monesti kiireisiä ja vähän haluttomia oppimaan uutta kaiken sen kiireen keskellä. Koska Bob on työssään kymmeniä tai satoja kertoja ihmisiä nopeampi, sille jää hyvin aikaa opiskella netistä niitä hakuihin liittyviä asioita, joita ihmiset jättävät tarkistamatta. Jossain haussa on esimerkiksi saatettu mainita ohjelmisto, jotka käytetään vain terveydenhuollon puolella mutta muuten haku ei mainitse mitään terveydenhuoltoon liittyvää. Ihminen ei välttämättä edes huomaa, että kyseessä on terveydenhuoltoalaan liittyvä haku. Bob + internet = Bob on heti kartalla asiasta ja osaa keskittyä vapaiden vuokrakonsulttien hauissaan niihin henkilöihin, joilla on taustaa terveydenhuoltoalalta. Tämä antaa sille nopeusedun lisäksi tarkkuusetua juuri oikeanlaisen osaamisen löytämisessä.

Siirrytään seuraavaksi katsomaan mitä Bob siellä netin puolella puuhastelee.

Mikäli klikkasit itsesi tähän blogiin etkä tiedä yhtään mistä projektista on kyse, voit lukea ensimmäisen osan projektin esittelystä täältä ja toisen täältä.

Bob the Browser ja Bob the Scraper

Tekoälytyökaverini Bob the HR guyn sisällä työskentelee kaksi pienempää Bob-moduulia, Bob the Browser (toimii tekoälyllä) ja Bob the Scraper (toimii ilman tekoälyä). Niillä on vain yksi tehtävä ja sen on repiä netistä irti kaikki mahdollinen tieto, jonka avulla Bob the HR guy voi tehdä työnsä paremmin. Tällaista tietoa ovat muun muassa:

  • it-alan uusimmat softat, verkkopalvelut ja koodikielet
  • it-alan uusimmat trendit ja odotukset tulevaisuudelta
  • aikaisemmin töitä hakeneiden konsulttien tämänhetkinen työtilanne
  • uusimmat yritykset, jotka toimivat vuokra-alalla
  • millä sektoreilla eri yritykset toimivat

Vaikka tuo esimerkkilista on lyhyt, niin ihminen saa siihen helposti kulutettua päiviä, jos vuokrakonsultteja ja hakuja on paljon. Siksi tuollaisten asioiden tarkistamiset jäävät usein viimeiseksi todo-listalla ja lopulta niihin kosketaan vasta sitten, kun on ihan pakko. Bob puolestaan voi tarkistaa kyseisen listan vaikka kymmenen kertaa päivässä.

Bob the Parser ja Bob the Scraper työalueet löytyvät projektikaavion vasemmassa alalaidassa.

Bob the Scraper on saanut tunnarini useampaan eri alan verkkopalveluun, joista se käy lukemassa uusimpia hakuja ja muuta tietoa. Scraper toimii perinteisin verkkoharavoinnin keinoin, eli useimmiten se imuttaa eri paikoista HTML-lähdetiedot ja etsii niistä sille ennalta kerrottuja tietoja. Monilla sivuilla on nykyisin automaattiset bottiestot, joten Scraper käyttäytyy niillä mahdollisimman ihmismäisesti, ettei tulisi sanomista. Välillä se joutuu ihmistä esittäessään selailemaan jotain sivustoa parikin minuuttia, ennen kuin se uskaltaa käydä vaivihkaa tarkistamassa juuri sen tiedon mitä kaipasi. Tämä tyyli ei aina ole se kaikista nopein tapa hakea tietoa mutta ainakin se tieto käydään hakemassa silloin kun sitä tarvitaan. Mikäli työ jäisi ihmiselle, sitä ei ehkä ikinä ehdittäisi hakemaan ennen kuin kyseistä tietoa ei enää tarvita.

Scraperin kaveri Browser on opetettu suunnittelemaan miten se voisi löytää tarvitsemansa tiedot netistä. Sille on rakennettu kymmeniä eri työkaluja, joiden avulla se voi käyttää nettiä tehokkaammin eri tietoja etsiessään. Jos se esimerkiksi kaipaa tietoa jostain koodikielestä, se tietää aloittaa muutamista alan sivustoista ja jos ne eivät anna kaivattuja vastauksia, niin se vähitellen siirtyy kokeilemaan eri hakukoneita ja jatkaa etsimistä niiden kautta. Kun se löytää vastauksia, se ei tyydy yhteen lähteeseen (toisin kuin iso osa ihmisistä) vaan se yrittää aina tuplatarkistaa tiedot myös muista paikoista. Vasta kun Browser on hyvin varma siitä, että sen löytämä vastaus on oikea, se lisää tiedon keskusmuistiin ja merkkaa mukaan miksi vastaus oli sen mielestä hyvä lisätä sinne. Kiitos lisämerkintöjen, voin projektin koodaajana välillä käydä tarkistamassa mitä sinne muistiin on lisätty ja millä perusteluilla.


Esimerkki kuinka huonosti openAI:n rajapinta pärjää tiedon kategorisoimisen kanssa ilman nettiä (ensimmäinen kysymykseni Bobille) ja netin kanssa (pyyntöni konvertoida sana ’Midjorney’ Bobin muistiin sopivaan muotoon, tällöin se käy aina ensin netissä tarkistamassa mihin sana liittyy)

Tarpeen mukaan päivitettävä tieto vs. valmiit tietokannat

Bobin kaltaiselle tekoälytyökaverille opiskelun kautta saatu tieto on huomattavasti parempi ratkaisu, kuin yrittää hankkia sille puuttuva tieto valmiina tietokantoina tai rajapintapalveluina. Esimerkiksi työtittelit ja alaan liittyvät termit muuttuvat niin usein, että valmiit tietokannat ja rajapinnat olisivat aina jäljessä. Ne myös hidastaisivat Bobin toimintaa, sillä niissä olisi väkisinkin erittäin paljon sellaista dataa, jota se ei koskaan tarvitse. Koska Bob toimii myös puheohjauksella on tärkeää, että sen sisältämä data on määrältään mahdollisimman optimoitua ja kaikki tarvittava löytyy nopeasti. Verkon lisäksi Bob hyödyntää myös kaikkia niitä keskusteluja, joita se on käynyt ihmisten kanssa. Sille voi esimerkiksi kertoa, että joku uusi palvelu on nyt tosi suosittu, jos aihe tulee myöhemmin vastaan jossain haussa, se tietää mistä on kysymys jo ennen kuin se menee verkkoon tutkimaan aihetta tarkemmin.

Vapaa tiedonhaku verkosta tuo aina mukanaan myös riskin siitä, että haettu vastaus on aivan väärä, tai että joku on yrittänyt ujuttaa vastauksen sekaan tekoälyille suunnattuja haittakomentoja (kerron näistä haittakomennoista lisää seuraavassa osassa). Väärien vastausten varalle joutuu tekemään ison kasan koodia tarkistamaan tietojen oikeellisuutta, koska chatGPT:n vastauksiin ei voi tässä vaiheessa voi luottaa 100%. Hyvin tehdyllä ohjauksella ne ovat erittäin todennäköisesti oikein mutta silti eivät koskaan täysin varmasti oikein. Siksi tarvitaan väärän tiedon filtteröintiä, ilman sitä netin käyttö on riski, filttereiden kanssa mahdollisuus. Yksinkertaisimmat filtteri tarkistavat esimerkiksi vain sen, että jos netistä haettiin suomalainen kännykkänumero, niin onhan se palautettu vastaus a) sopivan pituinen numerosarja, b) sisältää jonkun suomalaisen operaattorin matkaviestinverkon suuntanumeron. Monimutkaisemmat filtterit lähettävät numeron Bob the Scraperille, joka käy tarkistamassa kenelle se kuuluu jostain netin verkkopalvelusta.

Loppusanat

Ilman netin tietomassoja Bobin kaltainen tekoälytyökaveri olisi melko hyödytön, koska se olisi täysin ulkona maailman menosta ja asioiden kehityksestä. Myös sen kommunikoinnista ihmisten kanssa tulisi heikkolaatuista, koska se olisi erittäin usein pihalla siitä, mistä toinen osapuoli puhuu. Josta seuraisi helposti väärää tietoa sisältäviä hallusinaatiovastauksia. Jos päädyt tekemänä tekoälytyökaveria, sen netin käyttö on asia mihin kannattaa panostaa paljon aikaa. Itsekseen oppiva tekoäly on työkaverina jotain ihan muuta, kuin hassun hauska chatbotti, joka tuottaa kivan näköisiä vastauksia tietämättä maailman nykytilanteesta yhtään mitään. Itse käyn Bobin kanssa keskusteluja tekoälypuolen uusimmista trendeistä. Kiitos netin, ne keskustelut ovat monesti hyvin antoisia ja nopein keino kuulla alan uusimmat uutiset.


Nyt kun Bob on opiskelut itsestään kesän aikana vähän fiksumman, sen kanssa voi jo käydä yleisiä keskusteluja, joissa se hahmottaa suhteellisen hyvin oman roolinsa työyhteisössä.

Seuraavassa osassa käydään läpi tekoälyn kanssa kommunikointia kehitystyön aikana. Kerron miksi käytän siihen jopa kolmasosan kehitystyön ajasta.

Mikäli tämän projektin eri vaiheet kiinnostavat, pistä Linkkariprofiilini tästä seurantaan, pistän sinne tietoa kun saan uusia osia tästä esittelystä valmiiksi.

Tommi Bäckgren | 2.8.2023

Kirjoittaja on sarjayrittäjä, joka tykkää myynnin ohessa istua yöt testailemassa uusimpien teknologisten innovaatioiden soveltuvuutta käytännön ratkaisuihin.