Yahoo

Just nu handlar (nästan) allt om maskininlärning. Självkörande bilar, bildigenkänning och rekommendationstjänster. Baserat på vårt och våra prylars beteendemönster ska våra liv underlättas. Obegripliga mängder data sparas ner varenda dag. Men tillhör man inte någon av it-jättarna är det svårt att komma över så stora mängder information som krävs för att testa program för maskininlärning.

Här vill Yahoo nu ge forskningen en hjälpande hand, skriver IDG News. Och det genom att skeppa över en ansenlig mängd anonymiserade data, närmare bestämt 110 miljarder interaktioner. Totalt blir det 13.5 TB av klick på nyhetslänkar och andra handlingar som vi internetanvändare ägnat oss åt i företagets flöden. Enligt Yahoo själva är detta den största omgången data som släppts till forskningen någonsin.

Läs också: Yahoo lever vidare – men företaget delas i två

”Data utgör kärnan för forskningen kring maskininlärning. Men privilegiet att ha tillgång till riktigt storskaliga dataset har varit reserverat för forskare som arbetar för stora företag. Och den akademiska forskningen har lämnats utanför”, säger Yahoo i ett uttalande.

Information som samlas in ligger till grund för de modeller och algoritmer som forskarna använder för att utveckla systemen för maskininlärning. Men det krävs stora mängder data för att de systemen ska bli användbara. Visserligen kan de använda artificiell data, men sådan information är på långa vägar så oförutsägbar som vi människor är i vårt beteende, säger Suju Rajan, ansvarig för forskningsområdet på Yahoo.

Hon tror att forskare som sätter tänderna i deras data kommer använda den för att bygga bättre rekommendationstjänster, likt de som Netflix och Amazon använder i dag. Men hon ser också andra användningsområden som informationssökning, ranking av sociala flöden eller stöd för molnleverantörer.

De data som nu står forskningen till hands samlades in under fyra månader 2015 och kommer från 20 miljoner Yahoo-användare. Interaktionerna kommer från flera av Yahoos tjänster, som Yahoo News, Sport och Finances. Med i paketet kommer också demografisk information för vissa användare. Men utöver kön och ålder är all data anonymiserad.

Läs också: Här är personerna som satte färg på 2015

Yahoo säger att syftet med att dela med sig av informationen är att jämna ut villkoren för den akademiska forskningen. De har i större utsträckning möjlighet att gå in i längre forskningsprojekt än forskare som jobbar för storföretag. Men de saknar resurserna.

”De kanske har möjlighet att lösa problem på ett sätt som i vi på Yahoo inte ens kan använda. Eller komma på nya forskningsområden som vi inte tänkt på”, säger Suju Rajan.