Artikel

Så här lyckas Google med att få assistenten att tänka som en människa

protection click fraud

Google Assistant har vuxit till sin egen plattform sedan den lanserades. Det är inte bara smartare än någonsin, men med enheter som Nest Hub eller Nest Mini, det är inte längre bara en del av Android.

Naturligtvis, när programvaran växer i funktioner blir det också mer komplext. Det betyder att utvecklare behöver dedikerade verktyg för att bygga det innehåll vi vill använda på våra smarta skärmar och andra assistentaktiverade enheter. Liksom alla utvecklarverktyg finns det två viktiga saker de behöver göra: vara enkla att använda och fungera bra. Det är svårt att få båda dessa viktiga saker att hända, men släppet av Actions Builder webbgränssnitt och Actions SDK ser ut som de blir vinnare.

Låt konversationen flöda

För att en Google Assistant-åtgärd ska vara bra måste den kunna prata och lyssna som en person skulle göra. Om du frågar din Google Home att berätta för dina barn en historia före sänggåendet eller sjunga låten "Borsta dina tänder", den måste känna igen vad du vill och kunna göra det som frågas utan att vara en robot som bara följer logik och ordning.

Verizon erbjuder Pixel 4a för bara $ 10 / månad på nya obegränsade linjer

De två viktiga saker som gör detta till verklighet kallas konversationsflöde och naturlig språkförståelse. Utan dessa skulle assistenten inte kunna interagera som vi har kommit för att njuta av.

"Ja", "ja" och "ja" betyder alla samma sak. Du måste lära en dator den typen av bristfällig mänsklig logik.

Konversationsflöde är ett ganska enkelt begrepp att förstå, och det betyder bokstavligen exakt hur det låter: Assistenten måste vara redo att prata tillbaka till dig när du har sagt något till det. Det är enkelt när du frågar vädret eller till och med ber det sjunga en sång om att borsta tänderna, men när saker och ting blir komplexa - som att välja din eget äventyrsspel, till exempel - det finns några mycket specifika sätt som en konversation behöver styras så att assistenten har ett svar att ge.

Det är där naturlig språkförståelse (NLU) kommer in i bilden. Assistenten behöver veta saker som "ja" och "ja" och "ja" betyder alla samma sak och det måste inse hur tal är flytande; vi pratar alla väldigt annorlunda än vi skriver. Och eftersom assistenten är en dator som bara fungerar som en person, behöver allt detta ingå i alla konversationsåtgärder. Datorer kan inte riktigt lära sig, de måste programmeras.

Det är där Googles nya Actions Builder och Actions SDK spelar in. De är två nya verktyg som låter utvecklare bygga ett projekt från början till slut så som de är mest bekväma med. Actions Builder är ett webbaserat verktyg som låter utvecklare bygga Conversational Actions på samma sätt som du bygger ett flödesschema. Men det har samma verktyg som en traditionell utvecklings-SDK skulle. Alla utvecklare kan använda det här grafiska gränssnittet för att visualisera konversationsflödet, mata in alla NLU-data som projektet har utbildats för att förstå och till och med felsöka slutprodukten på ett bekvämt och lättförståeligt sätt sätt.

Utvecklare kan använda en webbaserad blockbyggare eller en ny IDE för att bygga assistentinnehåll. Eller så kan de använda båda!

Actions SDK gör samma sak men i en mer traditionell IDE (integrerad utvecklingsmiljö) för utvecklare som föredrar att arbeta lokalt eller genom en filbaserad översikt över sitt projekt. Och om utvecklare redan har en föredragen IDE kan de använda den i kombination med kommandoradsverktyg för att bygga slutprodukten med samma fördelar.

Dessa verktyg är fronten till en bättre och snabbare assistentplattform. Runtiden (tänk på det som motorn som driver programvaran vi använder) för Assistant är nu snabbare än någonsin tidigare, och en helt ny interaktionsmodell innebär att assistenten är både smartare och lättare att bygga för.

Den nya interaktionsmodellen är byggd så att saker som realtidskonversationer är snabbare och effektivare att bygga och NLU-träning är mer robust. Utvecklare kan skapa scener och använda dem som en byggsten där varje del av en konversationshandling har sin egen data och logik. Bäst av allt kan utvecklare bygga scener och återanvända dem i samma åtgärd genom aktiva avsikter.

Jerry Hildenbrand

Jerry är Mobile Nation's bosatta nörd och stolt över det. Det finns inget han inte kan ta isär, men många saker som han inte kan montera om. Du hittar honom över Mobile Nations-nätverket och du kan slog honom på Twitter om du vill säga hej.

instagram story viewer