Artigo

Como o Google construiu o aplicativo Gravador do Pixel 4 usando aprendizado de máquina

protection click fraud

O aprendizado de máquina é uma das coisas novas mais incríveis que nossos smartphones podem fazer, mas é um termo usado com frequência e raramente compreendido. No uma postagem de blog, O Google se deu ao trabalho de explicar em detalhes como os algoritmos de aprendizado de máquina foram usados ​​e implementados especificamente no novo aplicativo Gravador para smartphones Pixel, especificamente como o aprendizado de máquina torna este o melhor aplicativo de gravação que você já usou na vida.

A interface simples do gravador é enganosa. No back-end está uma coleção de código que foi projetada para ouvir, entender, transcrever e até mesmo classifique a fala e outros áudios que são ouvidos por seu telefone ao gravar com o gravador aplicativo. Durante a gravação de áudio, você notará imediatamente algumas coisas: além do comprimento de onda e da linha do tempo apresentados, você também verá cores e categorias aparecem na tela na guia principal, enquanto as palavras ditas estão localizadas na guia de transcrição e aparecem em tempo real.

A Verizon está oferecendo o Pixel 4a por apenas US $ 10 / mês nas novas linhas Unlimited

O gravador é capaz de fornecer esta transcrição em tempo real porque seu código de back-end analisa o áudio que chega e faz referência cruzada com os diferentes tipos de áudio que tem ensinado a entender. Exemplos de categorias de áudio compreendidas incluem música, fala, assobios, latidos de cachorro e muitos outros sons comuns. Cada categoria de som é representada visualmente por meio de cores exclusivas que ajudam os usuários a identificar rapidamente o que está sendo ouvido durante a reprodução, sem precisar realmente ouvir o áudio. Isso faz uma grande diferença ao tentar encontrar algo após o término da gravação, já que você não terá mais que sentar e esfregar o áudio apenas para encontrar o que procura.

O gravador verifica a cada 50 ms os perfis de som, mas, como há 1000 milissegundos em um segundo, isso significa a classificação mudaria constantemente e variaria enormemente, dependendo do que é identificado como o principal áudio. Para evitar esse tipo de categorização maluca de áudio, o Google desenvolveu um método de filtragem que joga fora os dados inúteis por referência cruzada com amostras mais longas do áudio que está sendo gravado, ajudando assim a classificar melhor os sons por não mudar constantemente de categoria durante a escuta.

Durante a gravação, o gravador identifica as palavras faladas por meio de um algoritmo de aprendizado de máquina no dispositivo. Isso significa que nenhum dado é enviado aos servidores do Google (ou a qualquer outro lugar), pois o processador a bordo é capaz de verificar em uma espécie de dicionário no dispositivo para garantir as palavras corretas. As palavras são verificadas em uma árvore de decisão que inclui a filtragem de coisas como palavrões. Este modelo é tão avançado que é capaz até de identificar papéis gramaticais das palavras, ajudando-o a formar frases completas para uso posterior.

Essas palavras são então reunidas em uma linha do tempo na estrutura da frase e atribuídas a uma posição na linha do tempo. As palavras podem ser percorridas visualmente e pesquisadas após o término da gravação. Os usuários podem até clicar em cada palavra para ser levado a um momento específico da gravação, ajudando a entender melhor o contexto e o significado. Ao utilizar essas categorias, bem como o reconhecimento de palavras, o Google pode até fornecer três tags para uso no final de uma gravação para ajudar a nomear a gravação de forma mais rápida e precisa.

Como usar o aplicativo Gravador do Pixel 4

instagram story viewer