Artikkel

Hvordan Google bygget opptakeren til Pixel 4 ved hjelp av maskinlæring

protection click fraud

Maskinlæring er en av de mest fantastiske nye tingene smarttelefonene våre kan gjøre, men det er et begrep som ofte brukes og sjelden forstås. I et blogginnleggGoogle tok seg tid til å forklare i detalj hvordan maskinlæringsalgoritmer ble brukt og implementert spesielt i den nye Recorder-appen for Pixel-telefoner, spesielt hvordan maskinlæring gjør dette til den beste innspillingsappen du noensinne har brukt i livet ditt.

Opptakerens enkle grensesnitt lurer. I bakenden er en samling kode som er designet for å lytte til, forstå, transkribere og klassifiser til og med talen og annen lyd som høres av telefonen din når du tar opp med opptakeren app. Mens du tar opp lyd, vil du umiddelbart merke noen få ting: bortsett fra bølgelengden og tidslinjen som presenteres, vil du også se annerledes farger og kategorier vises på skjermen i hovedfanen, mens ordene som er sagt ligger i transkripsjonsfanen og vises i sanntid.

Verizon tilbyr Pixel 4a for bare $ 10 per måned på nye ubegrensede linjer

Opptaker er i stand til å tilby denne transkripsjonen i sanntid fordi det er back-end-koden som analyserer lyden som kommer inn og kryssreferanser den med forskjellige typer lyd den har vært

lært å forstå. Eksempler på forståte lydkategorier inkluderer musikk, tale, plystring, en hund som bjeffer og mange andre vanlige lyder. Hver lydkategori er representert visuelt ved å bruke unike farger som hjelper brukerne med å raskt identifisere hva som blir hørt under avspilling uten å måtte lytte til lyden. Det gjør stor forskjell når du prøver å finne noe etter at innspillingen er ferdig, da du ikke lenger trenger å sitte og skrubbe gjennom lyd bare for å finne det du leter etter.

Opptakeren sjekker hver 50. sekund for lydprofiler, men siden det er 1000 millisekunder på et sekund, betyr det klassifiseringen ville stadig endres og variere vilt avhengig av hva som er identifisert som den primære lyd. For å unngå denne typen sprø hjernekategorisering av lyd, har Google utviklet en filtreringsmetode som kaster ut søppeldata ved å kryssreferanse til det med lengre eksempler på lyden som blir tatt opp, og hjelper dermed med å klassifisere lyder bedre ved ikke å bytte kategori konstant under lytting.

Under opptak identifiserer opptaker ord som er talt via en maskinlæringsalgoritme på enheten. Det betyr at ingen data blir sendt til Googles servere (eller andre steder for den saks skyld), ettersom prosessoren ombord kan kontrollere mot en slags ordbok på enheten for å sikre de riktige ordene. Ord sjekkes mot et beslutningstreet som inkluderer filtrering av ting som banneord. Denne modellen er så avansert at den til og med kan identifisere grammatiske roller av ord, noe som bedre hjelper den med å danne hele setninger for senere bruk.

Disse ordene blir deretter samlet i en tidslinje i setningsstruktur og tildelt en posisjon på tidslinjen. Ord kan rulles visuelt gjennom og søkes etter etter at innspillingen er ferdig. Brukere kan til og med klikke på hvert ord for å bli ført til den bestemte tiden i opptaket, slik at de bedre kan forstå kontekst og betydning. Ved å bruke disse kategoriene, i tillegg til ordgjenkjenning, kan Google til og med tilby tre koder for bruk på slutten av et opptak for raskere og mer nøyaktig å gi navn til opptaket.

Hvordan bruke Pixel 4s opptaker-app

instagram story viewer