Project

Een Formele Karakterisatie van de Robuustheid van Diepe Neurale Netwerken tegen Adversarial Perturbations

Code
3F017418
Looptijd
01-10-2018 → 30-09-2022
Financiering
Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)
Promotor
Mandaathouder
Onderzoeksdisciplines
  • Natural sciences
    • Artificial intelligence
  • Social sciences
    • Cognitive science and intelligent systems
Trefwoorden
Neurale Netwerken
 
Projectomschrijving

Diepe neurale netwerken zijn de afgelopen jaren enorm succesvol geweest in veel AI-taken,
inclusief computervisie, spraakherkenning en zelfs gameplay (bijvoorbeeld het verslaan van mensen
kampioenen bij het spel Go). De toepassingen van deze diepe leertechnieken zijn veel en
een toenemend aantal belangrijke technologieën hangt van hen af. Desondanks echter virtueel
alle deep-learningmodellen bleken zeer gevoelig te zijn voor zogenoemde tegensprekenden
verstoringen. Dit zijn kleine, onmerkbare verstoringen van de natuurlijke input van deze modellen
waardoor ze willekeurige uitvoer produceren. Het gebruik van black-box-contradictoire aanvallen is erg eenvoudig
voor een kwaadwillende actor om plausibele ingangen voor een model te genereren (waarmee geen rode vlaggen worden opgehaald)
alle menselijke waarnemers) maar dat zorgt ervoor dat het model zich op een door de aanvaller gespecificeerde manier gedraagt, zelfs als
de aanvaller heeft helemaal geen kennis van de onderdelen van het betreffende model. Dit poseert
ernstige beveiligingsproblemen die zelfs tot verlies van mensenlevens kunnen leiden, b.v. wanneer een zelfrijdende auto voor de gek gehouden wordt
om te denken dat een stopteken eigenlijk een snelheidsgrensteken is. Er is al veel onderzoek naar gedaan
beschermende maatregelen tegen deze aanvallen uitwerken, maar geen daarvan heeft een blijvende effectiviteit. Voor
Elke nieuwe verdediging die wordt voorgesteld, wordt door een nieuwe aanval uiteindelijk omzeild. We hebben behoefte aan
robuustheid garandeert dat onze modellen aantoonbaar worden beschermd tegen specifieke klassen van tegenspraak
aanvallen, wat ik hoop te bereiken in dit werk.