Radboud wetenschappers ontwikkelen nieuw wiskundig model voor transfer learning in neurale netwerken

 » Werk & ondernemen » Nijmegen innoveert

Alessandro Ingrosso, onderzoeker aan het Donders Instituut, heeft samen met collega's van twee Italiaanse onderzoeksinstellingen een nieuwe wiskundige methode ontwikkeld die het mogelijk maakt om de effectiviteit van transfer learning in neurale netwerken te voorspellen.

Het probleem van beperkte data 

Denk hierbij aan een beeldherkenningssysteem dat getraind is om een afbeelding van een hond te herkennen. Door het trainen van dit netwerk met grote hoeveelheden hondenfoto’s, leert het netwerk om met een hoge nauwkeurigheid een hond aan te wijzen op nieuw beeldmateriaal. Voor sommige toepassingen is er echter niet voldoende trainingsdata beschikbaar. "In de medische sector, bijvoorbeeld bij het diagnosticeren van kanker via echografie, zijn er niet genoeg voorbeelden beschikbaar om een neuraal netwerk goed te trainen," legt Ingrosso uit. "Dit leidt tot 'overfitting', waarbij het netwerk faalt in het generaliseren naar nieuwe, ongeziene gevallen. Het aantal vals-positieven en vals-negatieven kan dan erg groot worden."

Transfer learning als oplossing 

Om dit probleem op te lossen, richtten de onderzoekers zich op 'transfer learning', een techniek waarbij kennis van een netwerk dat getraind is op een grote dataset (de 'bron') wordt overgedragen naar een nieuw netwerk (het 'doel') dat getraind wordt op beperkte data. "We hebben het eenvoudigste model voor deze transfer learning-benadering bestudeerd en een wiskundige theorie ontwikkeld voor netwerken met één verborgen laag," vertelt Ingrosso.

Innovatieve combinatie van analytische methoden 

In deze theorie combineerden de onderzoekers twee verschillende analytische methoden: de recent ontwikkelde 'Kernel Renormalization'-benadering en het klassieke 'Franz-Parisi'-formalisme uit de theorie van Spinglazen. Het samenvoegen van dergelijke tools maakt het mogelijk om met specifieke, echte datasets te werken in plaats van statistische modellen of benaderingen. Ingrosso vult aan: "Onze nieuwe methode kan daardoor direct nauwkeurig te voorspellen hoe effectief het doelnetwerk zal zijn in het generaliseren van data wanneer het de kennis van het bronnetwerk overneemt.”

Dit onderzoek biedt belangrijke nieuwe inzichten voor het effectief trainen van AI-systemen in domeinen waar gegevens schaars zijn, zoals medische diagnostiek en andere gespecialiseerde toepassingen.

Dit artikel verscheen eerder op Radboud Universiteit.

Dit vind je misschien ook interessant...