Straipsnis

Kaip „Google“ sukūrė „Pixel 4“ įrašymo programą naudodama mašininį mokymąsi

protection click fraud

Mašininis mokymasis yra vienas nuostabiausių dalykų, kuriuos gali padaryti mūsų išmanieji telefonai, tačiau tai dažnai vartojamas ir retai suprantamas terminas. Į tinklaraščio įrašas, „Google“ skyrė laiko išsamiai paaiškinti, kaip mašininio mokymosi algoritmai buvo naudojami ir įdiegti būtent naujojoje „Recorder“ programoje „Pixel“ telefonams, būtent tai, kaip mašininis mokymasis daro šią geriausią įrašymo programą, kurią kada nors naudojate savo gyvenime.

Paprasta savirašio sąsaja yra apgaulinga. Galinėje pusėje yra kodų rinkinys, skirtas klausytis, suprasti, perrašyti ir net klasifikuokite kalbą ir kitą garsą, kurį girdi jūsų telefonas, kai įrašote įrašymo įrenginiu programa. Įrašydami garsą iškart pastebėsite keletą dalykų: be pateikto bangos ilgio ir laiko juostos, taip pat pamatysite skirtingus spalvos ir kategorijos rodomos ekrane pagrindiniame skirtuke, o sakomi žodžiai yra transkribavimo skirtuke ir rodomi realiuoju laiku.

„Verizon“ siūlo „Pixel 4a“ tik už 10 USD / mėn naujosiose neribotose linijose

Diktofonas gali pateikti šią realaus laiko transkripciją, nes jos galinis kodas analizuoja įeinantį garsą ir susieja jį su skirtingų tipų garsu mokė suprasti. Suprantamų garso kategorijų pavyzdžiai yra muzika, kalba, švilpimas, šuns lojimas ir daugybė kitų įprastų garsų. Kiekviena garso kategorija vaizduojama vaizdu, naudojant unikalias spalvas, kurios padeda vartotojams greitai atpažinti tai, kas girdima atkūrimo metu, net nereikia klausytis garso. Tai daro didžiulį skirtumą bandant ką nors rasti pasibaigus įrašymui, nes jums nebereikės sėdėti ir šveisti garso, kad tik rastumėte tai, ko ieškote.

Diktofonas kas 50ms tikrina garso profilius, bet tai reiškia, kad per sekundę yra 1000 milisekundžių klasifikacija nuolat keistųsi ir keistųsi, priklausomai nuo to, kas įvardijama kaip pagrindinė garso. Kad išvengtų tokio beprotiško sklaidytu garso skirstymo į kategorijas, „Google“ sukūrė filtravimo metodą, kuris išmeta šlamšto duomenis susiejant jį su ilgesniais įrašomo garso pavyzdžiais, taip padedant geriau klasifikuoti garsus, nuolat nekeičiant jų kategorijos klausymo metu.

Įrašymo metu „Diktofonas“ identifikuoja žodžius, pasakytus per įrenginio mašininio mokymosi algoritmą. Tai reiškia, kad jokie duomenys nėra siunčiami į „Google“ serverius (ar bet kur kitur, tuo klausimu), nes laive esantis procesorius gali patikrinti, ar įrenginyje yra tam tikras žodynas, kad būtų užtikrinta, jog žodžiai teisingi. Žodžiai tikrinami pagal sprendimų medį, kuris apima tokių dalykų kaip keiksmažodžiai filtravimą. Šis modelis yra toks pažangus, kad netgi gali atpažinti gramatinius žodžių vaidmenis, geriau padėdamas jam suformuoti ištisus sakinius vėlesniam naudojimui.

Tada šie žodžiai surenkami į laiko juostą sakinių struktūroje ir priskiriama vieta laiko juostoje. Baigus įrašyti žodžius galima vizualiai slinkti ir ieškoti. Vartotojai netgi gali spustelėti kiekvieną žodį, kurį reikia nukreipti į tą konkretų įrašo laiką, padėdami geriau suprasti kontekstą ir prasmę. Naudodama šias kategorijas, taip pat žodžių atpažinimą, „Google“ gali pateikti net tris žymas, skirtas naudoti įrašo pabaigoje, kad būtų galima greičiau ir tiksliau pavadinti įrašą.

Kaip naudotis „Pixel 4“ įrašymo programa

instagram story viewer