

För lite över ett år sedan pratade jag med Bryan Catanzaro från Nvidia om en del av den intressanta teknik som de utvecklade inom områdena grafisk AI, röstsyntes och konversations-/tal-AI.
Bryan delade med sig av en framtidsvision om vad saker som maskininlärning och djupinlärning kan göra för att påverka hur vi upplever världen omkring oss. Och medan några av de saker som AI som skapar saker som konst och musik och mänskliga röster får mycket uppmärksamhet, finns det några mer praktiska exempel på AI som redan används för att hjälpa till att skapa bättre kundupplevelser när vi behöver hjälp med en produkt eller tjänst .
Med ett år som gick var jag nyfiken på att höra hur saker och ting utvecklas inom dessa områden, och jag hade turen att få prata via LinkedIn Live med Erik Pounds, Senior Director för Enterprise Computing och Data Science på Nvidia, kring riktningen av saker som konversation och speech AI har flyttat in sedan jag senast pratade med Bryan. Nedan finns en redigerad utskrift av vårt samtal. Klicka på den inbäddade SoundCloud-spelaren för att höra hela konversationen.
Brent Leary: Vad har vi att göra med när det kommer till tal-AI och konversations-AI idag?
Erik Pounds: Du tänker på tal-AI, tänker på funktioner som automatisk taligenkänning där AI:n körs i bakgrunden och omedelbart kan känna igen vad du säger. Den kan transkribera vad som sägs. Den kan sedan agera i realtid på den informationen. Och du kan ge många användbara saker genom att göra det. Föreställ dig en kundtjänstagent på baksidan av ett telefonsamtal. Många av oss på andra sidan, på konsumentsidan, vill vi… Och vad vill vi egentligen? Jo, en, vi gillar att prata med människor, och den andra är att vi vill få hjälp snabbt, eller hur?
Föreställ dig att använda på baksidan av det, så på agentsidan, tänk dig om jag pratar med en agent som försöker få hjälp och jag ställer en massa frågor, tänk dig om AI:n körs i bakgrunden, dra upp kunskapsbaserade artiklar, hitta information, hitta användbara verktyg och hjälpa mig att svara på min fråga.
Sedan har agenten all denna information till hands för att hjälpa mig att lösa mitt problem. Det är som att ha nästan som den här superkraften som sitter bredvid dig, för att hjälpa någon att få en fantastisk upplevelse och lösa sina utmaningar, eller hur? När vi tänker på AI, speciellt i det sammanhanget, handlar det inte om att ersätta människan med en robot som du ska prata med. Det finns dessa stegvisa steg som kommer att kunna hjälpa företag som tillhandahåller en tjänst till sina kunder i bokstavligen decennier framöver.
Data är grundläggande, empati lägger till nödvändiga mänskliga element
Brent Leary: När människor tänker på AI har de denna snäva definition och en snäv syn på vad det faktiskt kan påverka. Men när det kommer till kundupplevelsen när de behöver hjälp, så känns det som inte bara AI:n, utan kombinationen av åtminstone att känna att du kommunicerar med en människa, åtminstone en sak som låter mänskligt eller någon som har någon form av mänsklig empati. Det är lika viktigt som att ha rätt data till sitt förfogande.
Erik Pounds: Absolut. Data är grundelementet i allt detta. Om vi transkriberar ett samtal producerar det data i realtid. Men det finns också andra data som redan finns, ofta vilande i ett företag som kan utnyttjas. Och jag tror att en av de bästa strategierna alla företag kan ta är att ta reda på, “Okej. Vilken är den värdefulla data som jag redan har, som jag redan har? Och hur kan jag utnyttja det för att ge bättre kundupplevelser?” En del av det kan bara vara allmänna data.
Till exempel, varje gång en kundtransaktion inträffar sker ett engagemang som producerar data. Du kan få mycket information från det när det gäller trender och mönster och sådant här. De skulle kunna hjälpa framtida kunder, eller hur? Ofta transkriberas och lagras många av dessa samtal, interaktioner. Vi hör alla den delen av början av alla samtal som, “Detta samtal kan övervakas.
Om du fortsätter är det här vad som kommer att hända.” Se det som nästan som crowdsourcing-information. Du kan verkligen utnyttja den informationen till din bästa fördel. Så jag tror att mycket av det börjar med grunden för hur du utnyttjar och använder data.
Förbindande sammanhang
Brent Leary: Kan du prata lite om komponenten i detta där vi inte bara kan ha bra naturlig språktranskription och förståelse, utan också sentimentkomponenten, förmågan att utnyttja empati tillsammans med tal-AI som en del av kombinationen. För en del av det är att lösa utmaningen eller att hjälpa, men den andra delen är hur det går till och känslan av att människor inte bara får av att få saken rättad, utan sättet på vilket saken korrigerades, sättet de var engagerade på. , deras gemenskap, empatin som går fram och tillbaka. Kan du prata lite om var vi är med det?
Erik Pounds: Ofta när jag säger en sak, och sedan du svarar, då säger jag en annan sak, den följande meningen är knuten till den första meningen. När man tittar på hur traditionellt algoritmer har fungerat så förstår de ofta inte det sammanhanget. De bearbetar inte det eller tar det i beaktande. Det är möjligt nu. Till exempel, vi har lagt ut några demos nyligen på vår konferens bara förra månaden, NVIDIA GTC, vi lade ut en demo.
Det är en kundtjänstdemo som använder ett AI-ramverk som vi kallar NVIDIA Tokkio som visar exakt hur detta fungerar när det gäller att tillhandahålla en interaktion som är verklighetstrogen, som förstår vad jag säger, vad jag frågar efter och kan göra det i en naturlig typ av flöde av ett mänskligt samtal. Och det är kritiskt. Eftersom vi automatiserar mer av hela processen, är det helt avgörande. För som du sa, vi vill interagera med människor, eller hur? Som du sa, någon ringer in, de vill höra en mänsklig röst, de vill ha någon som är vänlig, som förstår dem, som uppskattar vad de säger.
Om AI är byggd till den nivån måste den kunna göra det. Annars kommer upplevelsen inte att bli bra. Jag tror att detta är viktigt när vi pratar om AI-teknik. När det kommer till tal-AI eller konversations-AI, finns det många tekniska detaljer som, “Okej. Ja, hur stor andel av orden du säger förstår jag? Kan jag förstå dina ord i en bullrig miljö? Jag kan göra allt det här.” Och det är så tekniken fungerar.
Men det som verkligen betyder något är, är det en fantastisk upplevelse eller är det inte en fantastisk upplevelse? Du kan använda fantastisk teknik för denna utmaning och ändå inte ge en fantastisk kundupplevelse. Och det är det viktigaste, eller hur? Så vi har tagit det tillvägagångssättet med vår teknik att en av de viktigaste sakerna som vi kan hjälpa våra kunder att göra är att ta AI, ta dessa förutbildade modeller och kunna anpassa dem för sin egen domän och sina egna miljöer .
Om du driver ett callcenter där de flesta diskussionerna handlar om botanik, kan jag inte komma ihåg namnen på de växter som jag har ändrat genom tiderna på min trädgård, eller hur? Men om så är fallet måste du se till att denna AI förstår vissa terminologier och fraser och sammanhang runt den domänen. Eller om det är ett företag inom medicinteknik, kan du föreställa dig att det finns många saker som kommer att diskuteras i det samtalet som inte är i ett normalt samtal som en AI-modell skulle tränas i.
Så anpassning är superviktigt liksom lingo, eller hur? Så baserat på de områden i världen som dina kunder bor i eller ringer in från, vill du kunna förstå dialekter, lingo, sånt här och kunna hantera det ordentligt. Så mycket av detta är inte… Du kan inte bara ta en standard AI-modell och distribuera den för att fungera i en miljö och den ger en fantastisk upplevelse överallt. Anpassning kommer att vara mycket viktigt.
Förbise inte data precis framför dig
Brent Leary: Vad är några av de saker som är hur kanske företag fortfarande försöker få huvudet runt när det gäller att gå vidare med detta?
Erik Pounds: I samband med detta samtal, som du nämnde, har du en god relation med ett gäng företag som bygger dessa CRM-plattformar som används av många olika företag och organisationer. Ofta har ett företag sin befintliga servicestack eller teknikstack, och sedan vill de göra något nytt. Ibland har var de är idag vissa begränsningar.
Så det lägger ofta till en del komplexitet eftersom en del av det är, “Ja, jag kan bygga det här själv på egen hand och koppla in det till min befintliga plattform.” Eller ibland måste du gå tillbaka till din ISV, göra en funktionsbegäran som “Hej, vi vill verkligen göra det här. Vilka är dina idéer?”
Jag tror att viktigast av allt, när du sätter igång dessa konversationer, förstår de data som finns till hands. Förstå vad du kan göra på egen hand, vad dina ISV:er kan göra, vad du till och med skulle kunna göra om du bara hade lite konsulthjälp. Och jag tror att du bara har full förståelse så att du kan ta positiva steg framåt.
De flesta första AI-projekt inom företag är vana vid att… De skär tänderna med dem, eller hur? De är inte alltid framgångsrika. Detta är en ny teknik. Så jag skulle säga att det är superviktigt att vara förberedd så mycket som möjligt, så att du har störst chans att lyckas i ditt första projekt.
Brent Leary: Ur ett CRM-applikationsperspektiv, särskilt om du är en säljare, hatar de att använda CRM. De gillar inte att lägga i saker. De registrerade sig inte för att skriva eller svepa eller klicka. De vill verkligen gå ut och bygga relationer och sälja saker. Och min fantasi är, skulle det inte vara coolt om du bara kunde prata med din företagsapplikation, oavsett om det är CRM eller ERB eller vilken förkortning du vill slänga där ute, om du bara kunde prata med den som vi pratar just nu och få dina saker gjorda, är det bara fantasi? Eller ser du en dag då vi faktiskt kunde göra den typen av konversation med våra appar?
Erik Pounds: Nej, det borde det inte vara. Speciellt nuförtiden när de flesta av dessa… Du nämnde som, “Okej. Jag måste gå tillbaka till Salesforce och uppdatera den här posten efter att jag har haft det här samtalet med den här kunden eller potentiella kunderna.” Och vi vet alla många gånger att dessa register inte är så väl uppdaterade, och då har inte verksamheten den intelligens den behöver för att gå vidare, eller hur? Rörledningen är inte uppdaterad. Du kan inte lära dig av det. Många av dessa samtal nu är som vi har, eller hur? De är avlägsna. De är inte i ett konferensrum i någon byggnad. Eller även om de är i ett konferensrum i någon byggnad, finns det ofta någon som är avlägsen. Och så finns det ett system som lyssnar på det här samtalet.
Bara att kunna transkribera den konversationen och kunna göra det för, i det här fallet, den kontoansvarige eller den som är inblandad skulle vara fantastiskt. Och det är allt möjligt idag. Precis som den här konversationen transkriberas den här konversationen. Du använder någon ASR-funktion för att transkribera konversationen, sedan använder du någon NLU- eller NLP-funktion för att förstå sammanhanget för vad fan vi pratar om. Och då kan du ganska enkelt gå och uppdatera många av de där standardfälten. Och allt detta är repetitiva saker. Ju mer repetitiv en aktivitet är, desto lättare bör det vara att tillämpa AI.
Detta är en del av en-mot-en-intervjuserien med tankeledare. Avskriften har redigerats för publicering. Om det är en ljud- eller videointervju, klicka på den inbäddade spelaren ovan, eller prenumerera via iTunes eller via Stitcher.