Articolo

In che modo Google ha creato l'app Recorder di Pixel 4 utilizzando l'apprendimento automatico

protection click fraud

L'apprendimento automatico è una delle nuove cose più sorprendenti che i nostri smartphone possono fare, ma è un termine usato spesso e raramente compreso. Nel un post sul blog, Google ha spiegato in dettaglio come sono stati utilizzati e implementati gli algoritmi di apprendimento automatico nella nuova app Recorder per telefoni Pixel, in particolare il modo in cui l'apprendimento automatico rende questa la migliore app di registrazione che tu abbia mai usato nella tua vita.

La semplice interfaccia del registratore inganna. Nel back-end c'è una raccolta di codice progettato per ascoltare, comprendere, trascrivere e classificare anche il parlato e altro audio ascoltato dal telefono durante la registrazione con il registratore app. Durante la registrazione dell'audio, noterai immediatamente alcune cose: oltre alla lunghezza d'onda e alla timeline presentate, vedrai anche cose diverse i colori e le categorie vengono visualizzati sullo schermo nella scheda principale, mentre le parole pronunciate si trovano nella scheda di trascrizione e appaiono in tempo reale.

Verizon offre Pixel 4a per soli $ 10 / mese sulle nuove linee Unlimited

Il registratore è in grado di fornire questa trascrizione in tempo reale perché il suo codice di back-end analizza l'audio in arrivo e lo incrocia con i diversi tipi di audio che è stato insegnato a capire. Esempi di categorie audio comprese includono musica, parole, fischi, abbaiare di un cane e molti altri suoni comuni. Ogni categoria di suoni è rappresentata visivamente utilizzando colori unici che aiutano gli utenti a identificare rapidamente ciò che viene ascoltato durante la riproduzione senza dover effettivamente ascoltare l'audio. Ciò fa un'enorme differenza quando si cerca di trovare qualcosa dopo che la registrazione è terminata, poiché non dovrai più sederti e strofinare l'audio solo per trovare quello che stai cercando.

Il registratore controlla ogni 50 ms i profili audio ma, poiché ci sono 1000 millisecondi in un secondo, ciò significa la classificazione cambierebbe costantemente e varierebbe selvaggiamente a seconda di ciò che viene identificato come primario Audio. Per evitare questo tipo di categorizzazione folle dell'audio, Google ha sviluppato un metodo di filtraggio che elimina i dati spazzatura incrociarlo con campioni più lunghi dell'audio che viene registrato, aiutando così a classificare meglio i suoni non cambiando costantemente la loro categoria durante l'ascolto.

Durante la registrazione, il registratore identifica le parole pronunciate tramite un algoritmo di apprendimento automatico sul dispositivo. Ciò significa che nessun dato viene inviato ai server di Google (o altrove, se è per questo), poiché il processore a bordo è in grado di verificare una sorta di dizionario sul dispositivo per garantire le parole corrette. Le parole vengono confrontate con un albero decisionale che include il filtraggio di cose come parolacce. Questo modello è così avanzato che è persino in grado di identificare i ruoli grammaticali delle parole, aiutandolo a formare frasi complete per un uso successivo.

Queste parole vengono quindi assemblate in una sequenza temporale nella struttura della frase e assegnate una posizione sulla sequenza temporale. È possibile scorrere visivamente le parole e cercarle al termine della registrazione. Gli utenti possono anche fare clic su ogni parola per essere indirizzati a quel momento specifico nella registrazione, aiutando a comprendere meglio il contesto e il significato. Utilizzando queste categorie, oltre al riconoscimento delle parole, Google può persino fornire tre tag da utilizzare alla fine di una registrazione per dare un nome più rapido e preciso alla registrazione.

Come utilizzare l'app Recorder di Pixel 4

instagram story viewer