Predikasjon av behov og etterspørsel ved hjelp av data science kan føre til enorme økonomiske gevinster for distribusjon av Genos viktigste råvare.

Distribusjonspredikasjon 

Som avlsorganisasjon for Norsk Rødt Fe har Geno gjort stor suksess både i innland og i utland. I Norge selger de nærmere 400 000 sæddoser årlig til 200?000 kuer hos 9000 bønder, og i utlandet over 500 000. Dette fører til en stor logistikk innenfor alt fra produksjon til levering til bonden, og med kundetilfredshet på toppen av prioriteringslista blir det fort store kostnader. I dagens løsning kjører Geno en egen lastebil fullstappet med nitrogen og sæddoser til veterinærer, inseminører og bønder, populært kalt «Sædruta». Denne kjører fra to sentrale lokasjoner, og skal innom alle stoppesteder hver 5. uke. Men hvordan vet de hvor mange doser som trengs hvor? Dette spørsmålet har vi forsøkt å løse for Geno, og i første steg har vi laget en løsning der vi predikerer inseminasjonsdato for alle kyr som har blitt inseminert tidligere. 

Samtaler med fageksperter 

I første steg måtte vi få en oversikt over hvilke data vi kunne benytte til å predikere inseminasjonsdato. Ettersom vi har lang erfaring som samarbeidspartnere for Geno, så har vi også en god oversikt over hvilke data de har om hver enkelt ku og besetning, og endte raskt opp med data som gjennomsnittlig intervall mellom kalving og inseminasjon i besetningen, historiske intervaller for den enkelte ku, og genetiske faktorer. Likevel er det viktig å benytte den fagkunnskapen til de som jobber med disse dataene til daglig, og i Geno sitt tilfelle har de noen av verdens fremste forskere på området med på laget. Derfor innleder vi alltid våre oppdrag med samtaler med fagekspertene til den enkelte bedrift. Dette er kanskje det aller viktigste og dessverre kanskje også den mest undervurderte delen av arbeidet med data science. Disse samtalene har nemlig flere hensikter. En er at vi blir bedre kjent med problemstillingen og situasjonen til firmaet, slik at vi kan løse problemet på den måten som gir best mulig nytte for bedriften. Den andre effekten er at man får muligheten til å lære av de som kan fagområdet aller best. Ofte har disse tanker om hva som kan bidra inn i modellen, og de vet også gjerne hvor man får tak i de beste og mest relevante dataene. For ikke å snakke om alle fallgruvene i dataene som de kjenner til etter mange års erfaring. Den tredje effekten vi gjerne ser i dette arbeidet, er effekten av samarbeid og involvering. Når en konsulent kommer inn i et firma med egne ressurser på fagområdet kan det ofte oppfattes som et angrep mot deres arbeid, men tett samarbeid minimerer denne følelsen. Man kunne skrevet en hel bok om dette temaet, men kort fortalt forsøker vi i disse samtalene å heller spille på lag med interne ressurser, og bidra til opplæring og inspirasjon. Da får kunden ikke bare en midlertidig lykke, men også en langvarig nytte av samarbeidet. Og det tjener alle sammen på.  

 

Problemstilling 

Gjennom disse samtalene kom vi frem til en problemstilling som vi kunne jobbe med å løse ved hjelp av maskinlæring. I dette tilfellet ble prosessen utført ved hjelp av ett av våre hypotesekort, der vi formulerer en hypotese, hvordan vi skal teste hypotesen, og hvordan vi måler hypotesen slik at vi får en verdi som maskinen kan optimalisere ved hjelp av algoritmene vi bruker.

Som med alle prosjekter, så er god planlegging selve grunnmuren i alt. Uten denne faller alt sammen, og slurv kan få fatale konsekvensers senere i prosjektet. Akkurat som et isfjell, så er det bare en liten brøkdel av arbeidet som blir synlig for sluttbrukeren. Likevel er det dette arbeidet som sørger for at sluttproduktet fyller forventningene.  

Figur 2: En stor del av arbeidet som avgjør suksessen til en modell er det som ligger skjult under overflaten. Uten et godt grunnlag risikerer man ustabile modeller når de blir satt i produksjon.

 

Datautforskning 

Ettersom vi flytter oss oppover isfjellet, kommer vi til innhenting og strukturering av data. Vi samlet inn data på både besetning, ku, og historiske inseminasjoner. Her er det svært viktig med godt og grundig arbeid, der arkitekten spiller en viktig rolle i strukturering av dataene. Tett samarbeid med fagekspert gjør ofte arbeidet lettere, og styrer oss i retning viktige variabler og kan som regel forklare svakheter i dataene. Samtidig forsøker vi alltid å gå bredt ut i våre forsøk på å hente relevante data. Derfor testet vi både hypoteser om rasens påvirkning, og skapte blant annet også nye variabler ved å se på inseminasjonsintervallene i besetningen se siste 30, 90, 180 og 365 dager.

 

Modellering

Med gode grunnlagsdata kommer modelleringen. De første modellene er ofte basert på et minimum av variabler, og brukes som et steg i utforskningen av dataene. Deretter henter vi inn nye data og bearbeider dataene vi har tilgjengelig før vi tester algoritmene på nytt i håp om å finne en stadig bedre modell. Og slik fortsetter arbeidet med å legge til nye data, forme dem slik at de fremhever de sammenhengene vi ønsker å benytte i modellen, og teste på nytt til vi har en ferdig modell. Gjennom denne prosessen har vi også en kontinuerlig dialog med kunden for å se om det er noe nytt vi ikke har testet. 

 

 

Resultatet

Til slutt tester vi modellen på helt nye data, for å få en forståelse av hvordan modellen presterer i virkeligheten – uten at man nødvendigvis setter den i produksjon.

I dette tilfellet fant vi til slutt ut at to tredeler av inseminasjonene (66,7%) kunne predikeres med en nøyaktighet på under 14 dagers avvik. Og 43% med avvik på under 7 dager. De økonomiske konsekvensene er enorme. Med slike resultater kan Geno selvsikkert si at man ikke trenger distribuere sæd til alle veterinærer til enhver tid – fordi man vet at ingen kuer skal insemineres før vi kommer tilbake. Det betyr at de dosene man før ville fylt på nitrogendunkene – som man måtte kaste ved neste fylling – kan nå sorteres ut før sædruta kjører ut fra Stange, og heller klargjøres for utlandet der etterspørselen er raskt voksende, og profitten er stor.

Figur 3: Maskinlæringens predikerte insemineringsdato (i form av antall dager etter kalving), og faktisk insemineringsdato. Størrelsen på punktene viser feilmargin på opprinnelig predikasjon (80 dager etter kalving), og fargen viser feilmargin på predikasjon med

Vegard Ølstad Dalberg

Data Scientist


I tilfellet med Geno hentet vi inn alt fra genetiske data for den enkelte ku, til historiske data på inseminasjoner utført i den enkelte besetning. Kombinasjonen viste seg å være gull!

19.08.2020