Članak

Kako je Google izgradio aplikaciju Recorder Pixel 4 pomoću strojnog učenja

protection click fraud

Strojno učenje jedna je od najnevjerojatnijih novih stvari koje naši pametni telefoni mogu učiniti, ali to je izraz koji se često koristi i koji se rijetko kad razumije. U post na blogu, Google je uzeo vremena da detaljno objasni kako su algoritmi strojnog učenja korišteni i implementirani posebno u novoj aplikaciji Recorder za Pixel telefone, konkretno kako strojnim učenjem ovo postaje najbolja aplikacija za snimanje koju ste ikada koristili u životu.

Jednostavno sučelje snimača obmanjuje. U pozadini je zbirka koda koja je stvorena za slušanje, razumijevanje, prepisivanje i čak klasificirajte govor i drugi zvuk koji vaš telefon čuje tijekom snimanja s rekorderom app. Tijekom snimanja zvuka odmah ćete primijetiti nekoliko stvari: osim predstavljene valne duljine i vremenske trake, vidjet ćete i drugačije boje i kategorije pojavljuju se na zaslonu na glavnoj kartici, dok se izgovorene riječi nalaze na kartici transkripcije i pojavljuju se u stvarno vrijeme.

Verizon nudi Pixel 4a za samo 10 USD mjesečno na novim Neograničenim linijama

Snimač je u mogućnosti pružiti ovu transkripciju u stvarnom vremenu, jer njezin pozadinski kod analizira audio koji dolazi i upoređuje ga s različitim vrstama zvuka naučio razumjeti. Primjeri razumljivih audio kategorija uključuju glazbu, govor, zviždanje, lavež psa i mnoštvo drugih uobičajenih zvukova. Svaka kategorija zvuka vizualno je predstavljena pomoću jedinstvenih boja koje pomažu korisnicima da brzo prepoznaju ono što se čuje tijekom reprodukcije, a da zapravo ne moraju slušati zvuk. To čini veliku razliku kada pokušavate pronaći nešto nakon završetka snimanja, jer više nećete morati sjediti i pročišćavati zvuk samo da biste pronašli ono što tražite.

Snimač provjerava zvučne profile svakih 50 ms, ali, budući da u sekundi ima 1000 milisekundi, to znači klasifikacija bi se neprestano mijenjala i divljala bi se ovisno o tome što je identificirano kao primarno audio. Da bi izbjegao ovakvu ludu kategorizaciju zvuka s raspršenim mozgom, Google je razvio metodu filtriranja koja izbacuje neželjene podatke ukrštajući ga s dužim uzorcima zvuka koji se snima, što pomaže boljoj klasifikaciji zvukova neprestanim mijenjanjem njihove kategorije za vrijeme slušanja.

Tijekom snimanja Recorder prepoznaje riječi izgovorene putem algoritma strojnog učenja na uređaju. To znači da se podaci ne šalju Googleovim poslužiteljima (ili bilo gdje drugdje, što se toga tiče), jer je ugrađeni procesor u mogućnosti provjeriti svojevrsni rječnik na uređaju kako bi osigurao točne riječi. Riječi se provjeravaju prema stablu odluka koje uključuje filtriranje stvari poput psovki. Ovaj je model toliko napredan da čak može prepoznati gramatičke uloge riječi, pomažući mu u stvaranju punih rečenica za kasniju upotrebu.

Te se riječi zatim sastavljaju u vremensku crtu u strukturi rečenice i dodjeljuje im se mjesto na vremenskoj crti. Riječi se mogu vizualno pomicati i tražiti nakon završetka snimanja. Korisnici čak mogu kliknuti svaku riječ koja će biti odvedena u to određeno vrijeme na snimci, pomažući boljem razumijevanju konteksta i značenja. Koristeći ove kategorije, kao i prepoznavanje riječi, Google čak može pružiti tri oznake za upotrebu na kraju snimanja kako bi brže i preciznije pomoglo imenovanju snimke.

Kako se koristi aplikacija Snimač Pixela 4

instagram story viewer