Artikel

Hoe Google de Recorder-app van de Pixel 4 heeft gebouwd met behulp van machine learning

protection click fraud

Machine learning is een van de meest verbazingwekkende nieuwe dingen die onze smartphones kunnen doen, maar het is een term die vaak wordt gebruikt en zelden wordt begrepen. In een blogpost, Nam Google de tijd om in detail uit te leggen hoe algoritmen voor machine learning specifiek in de nieuwe Recorder-app werden gebruikt en geïmplementeerd voor Pixel-telefoons, met name hoe machine learning dit de beste opname-app maakt die je ooit in je leven hebt gebruikt.

De eenvoudige interface van de recorder is bedrieglijk. In de back-end bevindt zich een verzameling code die is ontworpen om naar te luisteren, te begrijpen, te transcriberen en classificeer zelfs de spraak en andere audio die uw telefoon hoort tijdens het opnemen met de recorder app. Bij het opnemen van audio merk je meteen een paar dingen: behalve de gepresenteerde golflengte en tijdlijn, zie je ook anders kleuren en categorieën verschijnen op het scherm in het hoofdtabblad, terwijl de woorden die worden gezegd zich op het transcriptietabblad bevinden en verschijnen in echte tijd.

Verizon biedt de Pixel 4a aan voor slechts $ 10 / maand op nieuwe Unlimited-lijnen

Recorder kan deze realtime transcriptie leveren omdat de back-endcode de audio analyseert die binnenkomt en deze kruisverwijzingen met verschillende soorten audio die het is geweest geleerd te begrijpen. Voorbeelden van begrepen audiocategorieën zijn muziek, spraak, fluiten, het blaffen van een hond en tal van andere veel voorkomende geluiden. Elke geluidscategorie wordt visueel weergegeven met behulp van unieke kleuren waarmee gebruikers snel kunnen zien wat er tijdens het afspelen wordt gehoord, zonder dat ze echt naar de audio hoeven te luisteren. Dat maakt een enorm verschil als je iets probeert te vinden nadat de opname is afgelopen, omdat je niet langer door audio hoeft te schrobben om te vinden wat je zoekt.

Recorder controleert elke 50 ms op geluidsprofielen, maar aangezien er 1000 milliseconden in een seconde zijn, betekent dat de classificatie zou constant veranderen en enorm variëren, afhankelijk van wat wordt geïdentificeerd als de primaire audio. Om dit soort gekke, verstrooide categorisering van audio te voorkomen, heeft Google een filtermethode ontwikkeld die de ongewenste gegevens weggooit door kruisverwijzing naar langere samples van de audio die wordt opgenomen, waardoor geluiden beter worden geclassificeerd door niet constant van categorie te wisselen tijdens het luisteren.

Tijdens het opnemen identificeert Recorder gesproken woorden via een machine learning-algoritme op het apparaat. Dat betekent dat er geen gegevens naar Google-servers (of waar dan ook) worden verzonden, omdat de processor aan boord kan controleren aan de hand van een soort woordenboek op het apparaat om de juiste woorden te controleren. Woorden worden vergeleken met een beslissingsboom die het filteren van zaken als scheldwoorden omvat. Dit model is zo geavanceerd dat het zelfs grammaticale rollen van woorden kan identificeren, waardoor het beter kan helpen bij het vormen van volledige zinnen voor later gebruik.

Deze woorden worden vervolgens samengevoegd tot een tijdlijn in zinsstructuur en krijgen een positie op de tijdlijn toegewezen. Woorden kunnen visueel worden doorlopen en gezocht nadat de opname is voltooid. Gebruikers kunnen zelfs op elk woord klikken om naar dat specifieke tijdstip in de opname te gaan, waardoor de context en betekenis beter worden begrepen. Door deze categorieën en woordherkenning te gebruiken, kan Google zelfs drie tags leveren voor gebruik aan het einde van een opname om de opname sneller en nauwkeuriger te benoemen.

Hoe de Recorder-app van de Pixel 4 te gebruiken

instagram story viewer