maandag 27-01-2025

BREIN haalt groot AI taalmodel offline

BREIN heeft afgelopen week een groot Nederlands generatief AI taalmodel offline gehaald genaamd GEITje-7B. Het model was getraind op de grootste Nederlandstalige trainingsdataset die BREIN afgelopen zomer al offline haalde (zie: hier).

BREIN heeft de aanbieder o.m. aangesproken omdat het model getraind was op tienduizenden kopieën van Nederlandstalige boeken uit illegale bron. Deze bron is Library Genesis, een dienst die door de Nederlandse rechter onrechtmatig is bevonden en op verzoek van BREIN wordt geblokkeerd door de Nederlandse access providers. Ook is het groot taalmodel bijvoorbeeld getraind op teksten die zijn gekopieerd van nieuwssites zonder dat daar toestemming voor is gegeven.

We zien wereldwijd een tendens dat makers van AI modellen weinig of geen respect hebben voor auteursrecht. Kennelijk is de gedachte dat alle aandacht, tijd en geld die door makers en media bedrijven is gestoken in auteursrechtelijk beschermde werken minder belangrijk zijn dan de AI modellen. Of het nou gaat om muziek, tekst, foto’s of video, het hele internet wordt zonder toestemming gekopieerd om generatieve AI modellen te trainen zonder dat de makers en rechthebbenden van de oorspronkelijke werken daarvoor worden gecompenseerd. Dit is een kwalijke zaak en moet stoppen.

BREIN is niet tegen (het trainen van) AI maar vindt wel dat de auteurs van al die muziek, boeken etc. daarvoor een eerlijke vergoeding moeten krijgen en indien de oorspronkelijke makers niet willen dat hun materiaal voor het trainen van AI wordt gebruikt, dan moet dat ook gerespecteerd worden.

Een verweer van de aanbieder van het taalmodel dat BREIN offline haalde, was nog dat tekst en datamining is toegestaan voor wetenschappelijke doeleinden en dat het model door wetenschappers wordt gebruikt. Het model werd echter (ook) voor commercieel gebruik openbaar aangeboden op Huggingface.co, de community van AI ontwikkelaars. De AI Act schrijft voor dat wetenschappers rechtmatig toegang moeten hebben tot materiaal om het te mogen tekst en dataminen voor AI. Dat is niet het geval als bij het trainen van een model gebruik is gemaakt van evident illegale bronnen.

In de Verenigde Staten zijn al tientallen rechtszaken aanhangig tegen aanbieders van AI modellen. In Europa komen nu ook de eerste zaken voor de rechter. Gaandeweg begint het besef door te dringen dat auteursrecht gerespecteerd moet worden en zien we de eerste licentie afspraken gemaakt worden. Bijvoorbeeld tussen Open AI en de Financial Times en recent ook de voorlopige afspraak tussen de grote muziekmaatschappijen en Claude AI. Uiteindelijk gaat het erom dat ook de tech industrie zich aan de wet houdt en auteursrechten respecteert. Makers en producenten moeten een eerlijke boterham kunnen verdienen en (big) tech moet voor het gebruik van materiaal van anderen gewoon betalen, net zoals ieder ander, aldus BREIN directeur Bastiaan van Ramshorst.