Car-tech

Systemy rozpoznawania mowy muszą stać się mądrzejsze, profesor mówi

SkryBot Recenzja

SkryBot Recenzja
Anonim

Ci, którzy Nienawidząc rozmawiania przez telefon ze zautomatyzowanymi systemami rozpoznawania mowy może pomóc w tym, że naukowcy pracują nad uczynieniem takich systemów bardziej realistycznymi i mniej irytującymi w użyciu.

"Z doświadczenia konsumentów wynika, że ​​systemy te są bardzo frustrujące" - powiedział James Allen, który jest przewodniczącym informatyki na University of Rochester, przemawiający przed konferencją SpeechTEK 2010, odbył w tym tygodniu w Nowym Jorku.

Większość skomputeryzowanych systemów rozpoznawania mowy może zrozumieć, co człowiek mówi do 98 procent czasu, a mimo to ludzie wciąż żałują korzystania z zautomatyzowanych systemów pomocy telefonicznej. Kluczem do tego, aby te systemy były mniej frustrujące, byłoby zapewnienie im głębszego zrozumienia języka i uczynienia ich bardziej interaktywnymi, powiedział Allen.

[Dalsze czytanie: Twój nowy komputer potrzebuje tych 15 bezpłatnych, doskonałych programów]

Obecnie działy obsługi klienta większości dużych organizacji oferują zautomatyzowane systemy pomocy telefonicznej. Użytkownik dzwoni pod numer pomocy, a sztuczny głos prosi rozmówcę o serię pytań. Większość tych systemów opiera się na frameworkach, które są zasadniczo dużymi drzewami decyzyjnymi. W takich systemach "nie dowiesz się, czego dana osoba chce, postępujesz zgodnie ze scenariuszem" - powiedział.

Systemy są w rzeczywistości złożone z wielu różnych technologii. Jednym z nich jest rozpoznawanie mowy lub zdolność komputera do zrozumienia lub z powodzeniem przetłumaczenia na tekst, co mówi mówca.

Inna technologia, przetwarzanie języka naturalnego (NLP), próbuje przekształcić wiadomość mówcy w komendę komputer może wykonać, lub można go podsumować dla ludzkiego operatora.

W ciągu ostatnich kilku dekad dokonano wielkich postępów w rozpoznawaniu głosu i NLP, ale najwyraźniej przyniosły one głównie frustrację użytkownikom. "Dzwonię tylko do banku, gdy mam problem i walczę z tymi systemami." (Pytam), co mogę odpowiedzieć, aby jak najszybciej dotrzeć do osoby, "powiedział Allen.

Prace badawcze akademickie Allena zostały zakończone. w poszukiwaniu sposobów, że "możemy rozmawiać z maszyną w ten sam sposób, w jaki możemy rozmawiać z osobą", powiedział.

Rozmowy między dwiema osobami mogą być precyzyjne w sposób, w jaki komputery mają trudności z dopasowaniem. Allen wskazał na wczesną pracę, jaką zrobił jako student, w którym nagrywał rozmowy na stanowisku informacyjnym na stacji kolejowej. W jednej z interakcji pasażer podchodzi do kabiny i mówi "8:50 do Windsoru", a asystent odpowiada: "Brama 10, 20 minut późno". Podczas gdy asystent dokładnie wiedział, jakich informacji poszukiwał poszukiwacz, skomputeryzowane systemy stwierdzą, że pierwsze zdanie pasażera jest zbędne.

Sposób, w jaki Allen to widzi, w nowoczesnych systemach brakuje dwóch elementów: Zdolność analizowania tego, co mówi mówca i umiejętność rozmawiania z mówcą, aby dowiedzieć się więcej o tym, co mówca zamierza powiedzieć.

"Wiele gotowych NLP jest raczej płytkich.Nie mamy technologii, która daje sens zdań," powiedział. Narzędzia do analizy statystycznej i usługi definicji słów, takie jak WordNet, mogą pomóc zdefiniować słowo, ale także relacje słowa, aby system wiedział, że na przykład "spółka zależna" jest częścią "firmy".

Więcej Potrzebna jest także dwukierunkowa komunikacja między użytkownikami i komputerami. Mówiąc o swoich potrzebach, ludzie mogą przekazywać informacje w określonej kolejności. Powinno to zależeć od komputera, aby zebrać te informacje i nie obciążać użytkownika pytaniami, których odpowiedzi już zostały dostarczone.

"To jest przyszłość, to jest to, co naprawdę chcesz robić, i czy możemy zbudować dialog systemy, które mogą wesprzeć ten zakres złożoności ", powiedział.

Aby zilustrować ten pomysł, Allen i zespół badaczy zaprojektowali program o nazwie Cardiac, który mógłby naśladować pytania, które pielęgniarka mogłaby prosić pacjenta cierpiącego na chorobę serca. Program został stworzony dzięki środkom z amerykańskiego Narodowego Instytutu Zdrowia. W tym systemie, gdy użytkownik dostarczy informacje, system nie poprosi o to ponownie, powiedział Allen. System mógłby uzasadnić, jaki materiał został już dostarczony, a co jeszcze potrzebne.

Inny program zaprojektowany przez Allena i jego zespół, o nazwie Pług, może nauczyć się wykonywać typowe zadania na komputerze. "Jest to system, który pozwala w istocie używać okna dialogowego do szkolenia systemu, jak robić rzeczy za ciebie", powiedział.

Jako przykład, Allen zademonstrował program uczący się, jak znaleźć pobliskie restauracje za pomocą przeglądarki. Użytkownik otwiera przeglądarkę, nawiguje do witryny lokalizatora restauracji, wpisuje typ poszukiwanej restauracji i lokalizację, a następnie wycina i wkleja wyniki na pustą stronę. Użytkownik opisał każdy krok w trakcie jego przeprowadzania.

W procesie Pług zapisuje każdy krok i słyszalnie reaguje, gdy krok zostanie zrozumiany. Później, gdy użytkownik chce wyszukać inną restaurację, program wykona wszystkie te same ruchy, automatycznie tworząc kolejną listę restauracji. Agencja Zaawansowanych Projektów Badawczych Stanów Zjednoczonych sfinansowała rozwój tego programu.

Więcej danych jest kluczem do bardziej ludzkich systemów przetwarzania języka, zgodził się szef Microsoft ds. Logiki mowy Larry Heck, podczas kolejnego wykładu na konferencji. "Jeśli nie masz danych, nie ma znaczenia, jak wyrafinowane są twoje algorytmy", powiedział.

Jedno z miejsc, w których można znaleźć więcej danych, byłoby w wyszukiwarkach, zasugerował. Usługi wyszukiwarek dostają ogromną liczbę zapytań, z których wszystkie są powiązane z odpowiedziami. "Uważam, że wyszukiwarka jest bliską kuzynką technologii przetwarzania języka" - powiedział Heck.

Obecnie ludzie są przygotowywani do określania ich zapytań jako zestawu słów kluczowych. Zamiast tego, jeśli użytkownicy mieliby pisać pełne zdania opisujące to, czego potrzebują, wynikowy zestaw danych mógłby znacznie pomóc systemom lepiej zrozumieć, czego ludzie szukają.

Heck przepowiedział, że ponieważ coraz więcej osób korzysta z aktywowanych głosem usług wyszukiwania od Microsoftu i Google'a będą bardziej przyzwyczajeni do budowania swoich zapytań jako pełnych zdań, co z czasem może pomóc systemom NLP lepiej przewidywać potrzeby użytkowników.

Joab Jackson obejmuje oprogramowanie dla przedsiębiorstw i ogólne nowości technologiczne dla The IDG News Usługa. Śledź Joaba na Twitterze na @Joab_Jackson. Adres e-mail Joaba to [email protected]