Kā Google izveidoja lietotni Pixel 4 Recorder, izmantojot mašīnmācīšanos

Mašīnmācība ir viena no apbrīnojamākajām jaunajām lietām, ko mūsu viedtālruņi var darīt, taču tas ir termins, ko bieži lieto un reti saprot. In emuāra ziņa, Google izmantoja laiku, lai detalizēti paskaidrotu, kā mašīnmācīšanās algoritmi tika īpaši izmantoti un ieviesti jaunajā ierakstītāja lietotnē Pixel tālruņiem, jo īpaši tas, kā mašīnmācīšanās padara šo labāko ierakstīšanas lietotni, kādu jebkad esat izmantojis savā dzīvē.

Ierakstītāja vienkāršā saskarne ir maldinoša. Aizmugurē ir kodu kolekcija, kas paredzēta, lai klausītos, saprastu, atšifrētu un klasificējiet pat runu un citu audio, ko dzird jūsu tālrunis, ierakstot ar ierakstītāju lietotne. Ierakstot audio, jūs uzreiz pamanīsit dažas lietas: neatkarīgi no uzrādītā viļņa garuma un laika skalas jūs redzēsiet arī atšķirīgu krāsas un kategorijas tiek parādītas galvenās cilnes ekrānā, savukārt teiktie vārdi atrodas transkripcijas cilnē un parādās īsts laiks.

Verizon piedāvā Pixel 4a tikai par 10 USD mēnesī jaunās Neierobežotās līnijās

Diktofons spēj nodrošināt šo reāllaika transkripciju, jo tā aizmugures kods analizē ienākošo skaņu un savstarpēji atsaucas uz dažāda veida audio

instagram viewer

iemācīja saprast. Saprotamu audio kategoriju piemēri ir mūzika, runa, svilpe, suņa riešana un daudz citu izplatītu skaņu. Katra skaņas kategorija tiek vizuāli attēlota, izmantojot unikālas krāsas, kas palīdz lietotājiem ātri noteikt atskaņošanas laikā dzirdamo, faktiski neklausoties audio. Tas rada milzīgas atšķirības, mēģinot kaut ko atrast pēc ieraksta beigām, jo jums vairs nebūs jāsēž un jāberžē audio, lai tikai atrastu to, ko meklējat.

Diktofons ik pēc 50 ms pārbauda skaņas profilus, bet, tā kā sekundē ir 1000 milisekundes, tas nozīmē klasifikācija pastāvīgi mainītos un ļoti mainītos atkarībā no tā, kas tiek identificēts kā primārais audio. Lai izvairītos no šāda veida neprātīgas audio izkliedēšanas ar izkliedētu sadalījumu, Google ir izstrādājusi filtrēšanas metodi, kas izmet nevēlamos datus, salīdzinot to ar garākiem ierakstītā audio paraugiem, tādējādi palīdzot labāk klasificēt skaņas, nepārtraukti nemainot to kategoriju klausīšanās laikā.

Ierakstīšanas laikā ierakstītājs identificē vārdus, kas izteikti, izmantojot ierīces mašīnmācīšanās algoritmu. Tas nozīmē, ka dati netiek sūtīti uz Google serveriem (vai jebkur citur, ja tas ir nepieciešams), jo borta procesors var pārbaudīt pēc sava veida ierīces vārdnīcas, lai nodrošinātu pareizos vārdus. Vārdi tiek pārbaudīti, salīdzinot ar lēmumu koku, kas ietver tādu lietu filtrēšanu kā lamuvārdi. Šis modelis ir tik uzlabots, ka pat spēj identificēt vārdu gramatiskās lomas, labāk palīdzot tam veidot pilnus teikumus vēlākai lietošanai.

Pēc tam šie vārdi tiek sakomponēti laika grafikā teikuma struktūrā un tiem tiek piešķirta pozīcija laika skalā. Vārdus var vizuāli ritināt un meklēt pēc ierakstīšanas beigām. Lietotāji var ierakstā noklikšķināt pat uz katra vārda, kas tiek novirzīts uz konkrēto laiku, palīdzot labāk izprast kontekstu un nozīmi. Izmantojot šīs kategorijas, kā arī vārdu atpazīšanu, Google var pat nodrošināt trīs tagus lietošanai ieraksta beigās, lai ātrāk un precīzāk palīdzētu nosaukt ierakstu.

Kā lietot lietotni Pixel 4's Recorder

Raksts

Kā Google izveidoja lietotni Pixel 4 Recorder, izmantojot mašīnmācīšanos

Kategorijas

Jaunākās Blog Post

Lasīt Tagad