Ett nytt onlineverktyg gör det möjligt för användare att identifiera, spåra och lära sig om den rättsliga statusen för träningsdatauppsättningar för generativ AI, och en snabb blick visar att många kan ha licensproblem.

Verktyget, som kallas Data Provenance Explorer, är resultatet av ett samarbete mellan maskininlärnings- och juridiska experter från MIT, API-leverantören Cohere och 11 andra organisationer – Harvard Law School, Carnegie Mellon University och Apple är alla bland de medverkande. Data Provenance Explorer låter forskare, journalister och andra intresserade söka igenom tusentals databaser för AI-träning och spåra ”ursprunget” till datauppsättningar som används i stor utsträckning.

Tanken är att ge ett sätt att utforska den ibland grumliga världen av träningsdata som används för att utveckla generativ AI. I ett uttalande som presenterar Data Provenance Explorer beskriver teamet bakom det en ”datatransparenskris” som kan försvåra utvecklingen och den kommersiella användningen av generativa AI-system.

Saknar licenser

”Crowdsourcade aggregatorer som GitHub, Papers with Code och många av open source LLM som tränats från data på dessa aggregatorer, har en extremt hög andel saknade datalicenser, från 72 procent till 83 procent”, säger gruppen.

”Dessutom tillåter de licenser som tilldelas av crowdsourcade aggregatorer ofta bredare användning än den ursprungliga avsikten som uttryckts av skaparna av ett dataset.”

Behovet av ansvarsfullt utvecklad AI är något som branschen förefaller vara väl medveten om, enligt Kathy Lange, analytiker på IDC. Den snabba utvecklingen av generativ AI har skapat ett allmänt fokus på säker och laglig användning av data, säger hon.

– Att förstå varifrån datan kommer; hur den samlades in, bearbetades och omvandlades kan påverka förtroendet för AI-modellens resultat, säger Kathy Lange.

– AI-leverantörer som prioriterar dataursprung kommer att ha ett försprång på marknaden för kunder som kräver transparens, ansvarsskyldighet och efterlevnad.

AI-data har i vissa avseenden blivit inget mindre än ett slagfält. Kathy Lange nämner det nyligen presenterade verktyget Nightshade, som på ett subtilt sätt förändrar digital konst på ett sådant sätt att AI-generatorer som försöker använda upphovsrättsskyddade verk för träningsdata blir förvirrade.

Dessutom har en lång rad författare och andra upphovsrättsinnehavare börjat vidta rättsliga åtgärder mot användningen av deras verk i generativ AI-träning. Det rättsliga landskapet för dessa krav är dock fortfarande grumligt i många avseenden.