Project

Robuuste spraakverbetering met ad-hoc gedistribueerde microfoonroosters door integratie van audio- en spraak-specifieke signaalmodellen in "deep-learning" algoritmes

Code

3G007520

Looptijd

01-01-2020 → 31-12-2023

Financiering

Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)

Promotor

Nilesh Madhu

Onderzoeksdisciplines

Engineering and technology
- Telecommunication and remote sensing
- Audio and speech processing
- Pattern recognition and neural networks
- Audio and speech computing
- Signal processing not elsewhere classified

Trefwoorden

ad hoc-microfoonarrays

Projectomschrijving

Met de aankomst van de Internet-of-Things-wereld, zijn consumentenapparaten uitgerust met meerdere microfoons en het komt steeds vaker voor dat gebruikers met hun apparaten praten, in plaats van commando's op een toetsenbord in te voeren Om een machine in staat te stellen de onderliggende betekenis in de spraak nauwkeurig te kunne interpreteren, moeten we eerst een hoogwaardige signaal capteren Echter, signalen gecapteerd door de geïntegreerde microfoons zijn vaak beschadigd door sensor degradatie, storende audiobronnen op de achtergrond, nagalm, enz Het doel van dit onderzoek is om een geschikte manier te vinden waarbij signalen, die opgenomen zijn door de verschillende, gedistribueerde apparaten, kunnen gecombineerd worden om op een gewenste spraaksignaal te focusseren en de interferentie te onderdrukken Hierbij zijn de locaties van de microfoons in de kamer onbekend en constant kan veranderen We stellen een combinatie voor van klassieke statistische signaalmodellen en diepe neurale netwerken (DNNs) om dit probleem op te lossen Op basis van kenmerken die met de klassieke methode uit de audiosignalen zijn geëxtraheerd, kunnen we een eerste schatting van de gewenste spraak afleiden Deze initiële schatting wordt ingevoerd in een DNN, die een aanzienlijk verbeterd signaal verschafft Door het iteratieve uitvoeren van het process kan, aan het einde, een hoogwaardige spraaksignaal verkrijgt werden