Categories

Gada dziad do obrazu – sterowanie głosowe na serio zmienia rynek

40 procent dorosłych Amerykanów już dziś przynajmniej raz dziennie mówi do swoich urządzeń, poszukując porady, informacji czy dyktując maile. Liczba zapytań głosowych w wyszukiwarkach rośnie lawinowo. Od dwóch lat trend używania mowy zamiast klawiatury, przycisków czy pilota rośnie tak szybko, że możemy już dziś powiedzieć, że wkrótce z naszymi komputerami, pralkami i telewizorami będziemy po prostu rozmawiać. Jaskółki zmian widać również w Polsce.

Kto choć raz grał w karaoke na konsoli wie, że głos i urządzenie mogą świetnie współpracować. Gaming jak zwykle był w kwestii wykorzystania głosu lata świetlne przed wszystkimi: w ciągu ostatnich kilku lat rynek zalewały proste gierki, w których postaciami poruszaliśmy się wydając pierwotne dźwięki – najgłośniejsze oczywiście przy skokach i strzelaniu. To była jednak tylko przygrywka do prawdziwego przełomu w technologii, która stała się jednym z najgorętszych rynkowych trendów tego roku – sterowanie głosem (voice control) ma szansę na stałe wejść do naszej codzienności. Tym razem na serio.

Do tej pory maszyny słyszały nasz głos, ale nie potrafiły zrozumieć wypowiadanych słów. To zmieniło się wraz z postępami prac nad rozpoznawaniem głosu (ang. voice recognition)  i sztuczną inteligencją prowadzonymi przez technologicznych gigantów i wypuszczeniem na rynek asystentów głosowych, takich jak Google Home, Apple Alexa czy Amazon Echo.

Szczyt popularności głosowych asystentów przypadł na 2017 rok, a Amazon przewiduje, że do 2022 roku połowa amerykańskich gospodarstw będzie korzystała z inteligentnego głośnika.

Jednak prace nad wykorzystaniem voice recognition to nie tylko głosowi asystenci: nad skomunikowaniem maszyn z ludźmi pochylają się spece od elektroniki użytkowej, nieruchomości, AGD, branży motoryzacyjnej czy nawet medycyny. Gdy niektóre z pomysłów brzmią wciąż jak szalone wizje, inne są już na wyciągnięcie ręki: to poważne zmiany w sposobie wyszukiwania treści w internecie, a co za tym idzie: w marketingu internetowym oraz sterowane głosowo telewizory (oferowane m.in. przez LG, Sony i Samsunga).

Marketing internetowy do poprawki
Search Engine Optimization to termin znany wszystkim publikującym treści w internecie: od wielkich wydawców po małe firmowe strony. Jest to sposób, w jaki tworzymy treści po to, żeby znaleźć się jak najwyżej w wynikach wyszukiwania. Od kiedy okazało się, że odpowiednio pisząc, kodując i prezentując treści na stronie, możemy bez dodatkowych opłat poprawić pozycję firmy w wyszukiwarkach, optymalizacja SEO stała się w marketingu ważniejsza niż internetowe reklamy.

Jak to działało do tej pory? Załóżmy, że mamy stronę sprzedającą dziecięce wózki. Najpewniej marzymy o tym, żeby nasza firma pojawiła się na pierwszej stronie wyników wyszukiwań każdemu rodzicowi, który wpisze w okno wyszukiwarki hasła “wózek dla dziecka”, “bezpieczny wózek dla niemowlaka” itp. To były do tej pory nasze słowa kluczowe – wiedzieliśmy jakie słowa wpisują w wyszukiwarkę ci, którzy szukają wózków i skutecznie to wykorzystywaliśmy, walcząc z konkurencją o pozycje na konkretnych frazach.

Google podaje, że w tej chwili 20 proc. wszystkich wyszukań na telefonach pochodzi z poleceń głosowych. To duża zmiana dla SEO, bo okazuje się, że frazy, które wpisywaliśmy dotąd w wyszukiwarki nie są tymi samymi słowami, które wypowiadamy do urządzeń głosowych. Zestaw słów kluczowych w wyniku wyszukiwania głosowego znacznie się poszerza. Wraz z umacnianiem się trendu, język którym piszemy firmowe strony będzie musiał się zmienić: stanie się bliższy językowi mówionemu niż pisanemu. Na teraz eksperci od SEO radzą, żeby bacznie przyglądać się zapytaniom pochodzącym z wyszukiwania głosowego oraz zmienić pod ich kątem i porządnie wypozycjonować sekcję Q&A.

Druga ważna zmiana może dotyczyć płatnego pozycjonowania – pierwszych kilka linków w wyszukiwarce to zawsze pozycje opłacone. Ponieważ znaczna część komunikatów kierowanych do asystentów głosowych to prośby o zakup produktów, wskazanie dobrej restauracji czy zorganizowanie biletów do kina, to pojawia się ogromna pokusa, żeby za płatne pozycjonowanie dla wyszukiwań głosowych płacić ekstra. Tym bardziej, że asystent wybiera zwykle jedną podpowiedź – jeśli wskaże nasz produkt, z pewnością przełoży się to na zyski.

Pożegnanie z pilotem
Bliższy Polakom będzie drugi z tegorocznych hitów w zakresie voice control: sterowane głosowo telewizory. I chociaż pierwsze jaskółki odczytywania przez nie mowy pojawiły się już kilka lat temu, to głównie obsługiwały proste, zdefiniowane wcześniej komendy. Próba całościowej obsługi urządzenia za pomocą mowy przypominała wtedy surrealistyczną komedię z serii “człowiek kontra maszyna”. Wielu obserwatorów rynku zwątpiło w to, że to może być kierunek, w którym pójdzie rynek.

Z drugiej strony potrzeba zmian była ogromna – trudno w to uwierzyć, ale używane przez nas telewizyjne piloty są “so 80’s” – bazują bowiem na wymyślonej w tych latach technologii IR, wciąż najtańszego sposobu na bezprzewodowe połączenie człowieka rezydującego na kanapie z telewizyjnym odbiornikiem.

Sterowanie głosem – jak to z rewolucyjnymi technologiami bywa, musiało odleżeć swoje i poczekać na lepsze czasy, żeby stać się alternatywą dla pilota. Lepsze czasy nadeszły wraz z rozwojem technologii speech recognition i sztucznej inteligencji, a co za tym idzie: lepszym przetwarzaniem przez maszyny języka naturalnego. Dzięki temu dzisiejsze urządzenia mogą nie tylko odczytywać i odpowiadać na zestaw wgranych wcześniej komend, ale interpretować na podstawie znajomości zasad języka nowe zapytania, formułować coraz bardziej sensowne odpowiedzi, a nawet uczyć się nowych słów i kontekstów.

W tym roku na rynku sterowanych głosem telewizorów nastąpił przełom, bo LG ogłosiło, że jej telewizory będą obsługiwały nie tylko głosowe polecenia z asystenta Google’a, ale też Alexy Amazona. Co więcej, asystent współpracujący z urządzeniami po raz pierwszy rozumie polską mowę. Wreszcie i u nas dziad przestał gadać do obrazu i z urządzeniem można porozmawiać. Po naszemu.

 
Categories

Sztuczna inteligencja nas uratuje? Na razie pierze w rzece

Podczas przesłuchania w Kongresie, na większośc pytań o to, w jaki sposób Facebook rozwiąże problemy pojawiających się w serwisie treści nawołujących do nienawiści, Mark Zuckerberg odpowiadał: rozwiąże to sztuczna inteligencja (AI – artificial intelligence). Za każdym razem gdy padało “AI” przewracałam oczami i szłam po herbatę. Patrząc na to, jak wyglądają rynkowe wdrożenia sztucznej inteligencji, naprawdę trzeba być człowiekiem wielkiej wiary (albo głupoty), żeby myśleć, że na dniach będziemy mogli pozwolić algorytmom podejmować takie decyzje.

Po każdej niemal rozmowie z szefem firmy, której rozwiązanie jest oparte o “sztuczną inteligencję”, zbieram szczękę z podłogi. Widzę świat oczami przyszłości, w której boty zastępują call center, wirtualni tłumacze przekładają z chińskiego na nasze w czasie rzeczywistym (nauka języków obcych staje się fanaberią), a procesy w firmie są tak zautomatyzowane, że jako ludzie kontakt z klientem mamy wyłącznie wtedy, gdy zasila nasze firmowe konto.

Im dalej w las, tym z reguły ciemniej. W odsłonie drugiej rozmawiam z klientami lub ludźmi od technologii w tej samej firmie i okazuje się, że tak tak, to będzie działało “tylko jeszcze”, “ale” i “tutaj będzie”. Wszystkie te “tylko” i “ale” składają się na wizję przyszłości, która jest fajna, ale na teraz to zwyczajnie nie działa.

Technologiczna rzeczywistość części firm wygląda tak, że za interfejsem rozwiązania opartego o sztuczną inteligencję stoi szef firmy, który kręci korbką. Tak, w miejsce korbki będą kiedyś zaawansowane algorytmy; tak, tutaj będzie się to rozwijało jak tylko pozyskamy wystarczająco dużo danych. Rozumiem, że uczenie się maszyn, które jest jedną z podstawowych technik analizy danych leżącą u podstaw sztucznej inteligencji, odbywa się na danych. Kłopot w tym, że wiele firm nie ma pomysłu skąd te dane pozyskać lub chce je pozyskiwać od własnych klientów. Czy ci klienci to wytrzymają? Ja wymiękam.

Mieliście okazję prowadzić kiedyś komunikację z chatbotem (automatycznym konsultantem) jakiejś firmy? “Nazywam się Ania. Jestem automatyczną konsultantką banku XY. Chciałabym zadać ci kilka pytań. Nie jestem człowiekiem, więc nie wszystko zrozumiem…” – usłyszałam ostatnio w słuchawce. Chwila, czy nie miało być tak, że sztuczna inteligencja to taka, która potrafi przejść Test Turinga? Test przechodzi taka maszyna, która potrafi komunikować się z człowiekiem w taki sposób, że nie odróżniamy tej rozmowy od pogawędki z człowiekiem. Ania z banku XY spaliła swoją szansę już na starcie, a mnie szkoda czasu na takie pogawędki.

Komunikacja to nie są warcaby
Jęk zawodu ludzkości rozległ się po raz pierwszy, gdy w szachy z maszyną przegrał arcymistrz Kasparov. Długo przed ofensywą maszyn broniła się popularna w Azji gra Go, która wymaga sporej porcji intuicji i kreatywności – bastion padł w 2016 roku, gdy stworzony przez Google’a Alpha Go pokonał mistrza Lee Sedola. Maszyna nie tylko analizowała miliony możliwych pozycji i ruchów, ale też powiązała moc obliczeniową z elementami sztucznej inteligencji, które wprowadziły  elementy procesu decyzyjnego podobnego do ludzkiego.

Nieco dłużej broniły się warcaby, ale i one zostały mistrzowsko rozegrane przez maszyny. Jednak są takie gry, w które “maszyny nie umią”. Chodzi o te, w których nie wszystkie informacje są podane na tacy oraz istnieje w nich element tak mglisty i niezerojedynkowy jak komunikacja międzyludzka. Dlatego maszyna jak dotąd nie wygrała z człowiekiem w brydża?

W brydżu bariery dla sztucznej inteligencji są dwie – po pierwsze karty są zakryte i znane tylko osobie, która trzyma je w ręku. Nie wszystkie dane są więc podane na tacy tak jak w grach planszowych, a podejmowanie decyzji przy niepełnych danych (bardzo ludzkie doświadczenie!) czy blefowanie (w innym ujęciu: działanie na przypał) to dla algorytmów poważny kłopot.. Druga sprawa – w brydżu partnerzy wysyłają sobie przy stole sygnały tak, żeby ich komunikaty nie zostały odczytane przez innych graczy. Taki poziom komunikacyjnej subtelności jest na teraz poza zasięgiem maszyn, nawet tych superinteligentnych.

Z twarzy podobny całkiem do nikogo
Facebook (a także inni technologiczni giganci) intensywnie pracują teraz nad jeszcze innym aspektem, który ma przybliżyć maszyny do ludzi: chodzi o umiejętność rozpoznawania twarzy i obrazów w ogóle. Maszyny umieją już mniej więcej rozpoznawać pismo i mowę (coraz lepsze, choć wciąż niedoskonałe Siri, Alexa czy Google Assistant). Naszedł czas na obrazy. Przyznaję, że zdobycze technologii rozpoznawania obrazów i twarzy są równie imponujące, co przerażające pod względem kalibru popełnianych przez nie błędów.

Imponująco wyglądają przeanalizowane przez oprogramowanie zdjęcia tłumu, na których system sam jest w stanie wskazać, która osoba jest poszukiwanym przestępcą, która znanym VIP-em, co na obrazie jest pozostawionym bagażem, a który obiekt reprezentuje staruszkę wymagającą pomocy.

Problemy pojawiają się wtedy, gdy trzeba zinterpretować obraz w dość nieoczywistym kontekście. Algorytmy działają tak, że dzielą każdy obraz na małe kwadraciki, analizują co na nich jest i wypluwają interpretację. Popełniane przez nie błędy trochę przypominają różne cuda, gdy ludzie w pniu drzewa lub zacieku na oknie widzą twarze świętych. I tak algorytm jest w stanie uznać ludzkie kolano lub goły brzuch za twarz – rzeczywiście czasem fałdki tak jakoś się układają… Miewa też problem z perspektywą i określeniem wielkości obiektów, gdy na zdjęciu nie ma punktu odniesienia:  uznaje, że człowiek na tle góry to są dwa obiekty o tych samych rozmiarach lub że ptak jest samolotem. Trochę słabo.

Okazuje się, że sztuczna inteligencja nie tylko popełnia krytyczne błędy, których my nigdy byśmy nie popełnili. Raz po raz rozwiewa też marzenia o tym, że będzie bardziej  od nas sprawiedliwa, bezstronna, pozbawiona uprzedzeń. Algorytmy dyskryminują: okazuje się, że nie rozpoznają na zdjęciach twarzy innych niż białe. Sprawę nagłośniła absolwentka MIT Joy Buolamwini, gdy okazało się, że jako Afroamerykanka  jest rozpoznawana przez oprogramowanie na zdjęciach tylko wtedy, gdy założy białą maskę. Pominięcie osób o innym niż biały kolorze skóry wynika z tego, że algorytmom dano do tej pory analizować głównie twarze o jasnym kolorze skóry. Decyzję o tym podjął człowiek i trudno przenieść odpowiedzialność za to na maszynę.

Problem jest szerszy, dlatego Joy Buolamwini walczy dziś z dyskryminacją i uprzedzeniami w świecie algorytmów w organizacji Algorythmic Justice League.

Połowa ekspertów od sztucznej inteligencji twierdzi, że technologia zastąpi ludzi do 2040 roku. Druga połowa, że jeszcze wcześniej. Ja natomiast uważam, że wiele jeszcze wody upłynie zanim będziemy w stanie zaufać algorytmom w  podejmowaniu naprawdę ważnych decyzji w najistotniejszych społecznie sprawach. A decyzja o tym, czy ktoś w naszym serwisie jest dyskryminowany, nawołuje do nienawiści na tle rasowym czy religijnym do takich właśnie należy. Czekanie aż AI rozwiąże palące problemy społeczne, które dzieją się tu i teraz,  jest naprawdę nieodpowiedzialne, panie Zuckerberg.