Biometria głosowa – merytorycznie o weryfikacji na podstawie głosu

O weryfikacji na podstawie głosu, skuteczności, wygodzie i zagrożeniach takich rozwiązań – rozmawiamy z Jakubem Gałką, naukowcem i dyrektorem ds. rozwoju i badań VoicePIN, polskiego start-upu, którego rozwiązania zostały wdrożone m. in. w Ministerstwie Finansów.


Dr inż. Jakub Gałka

Jest adiunktem w Katedrze Elektroniki, Akademii Górniczo Hutniczej w Krakowie w Zespole Przetwarzania Sygnałów. Zawodowo zajmuje się technologią przetwarzania i rozpoznawania mowy, a także analizą danych i rozpoznawaniem wzorców. Prowadzi projekty z zakresu biometrii głosowej, systemów dialogowych, biometrycznego monitoringu rozmów i komunikacji migowej. Brał udział w wielu krajowych i międzynarodowych projektach badawczych i rozwojowych. Dr Gałka jest odpowiedzialny za badania i rozwój w VoicePIN, jednym z najprężniej rozwijających się polskich start-upów. Uczestniczył w opracowaniu systemu weryfikacji głosowej, który został wdrożony w Ministerstwie Finansów. Brał udział w programie Top 500 Innovators na Uniwersytecie Stanforda. Profil dr Gałki na LinkedIn.


Maciej Chmielecki: Jakiś czas temu pojawiły się w gazetach i Internecie nagłówki: ”Identyfikacja Polaków po głosie, czyli nowy system w fiskusie”, „Fiskus stawia na biometrię. Pytanie czy z wygody, czy dla inwigilacji”. O co chodzi z tą identyfikacją po głosie?

Jakub Gałka: Po pierwsze już samo sformułowanie „identyfikacja po głosie” jest niewłaściwe i nieprawdziwe. Wspomniany powyżej tekst dotyczy zastosowania biometrii do weryfikacji rozmówców, a nie do ich identyfikacji.

Jaka jest zatem różnica między takimi zastosowaniami?

W systemach weryfikacji biometria wykorzystywana jest jedynie do potwierdzenia tożsamości, która została jakoś wcześniej wskazana. W praktyce, tam gdzie działa weryfikacja biometryczna, użytkownicy identyfikują się samodzielnie albo np. na podstawie numeru telefonu. W sytuacji, w której użytkownik dzwoni i chce uzyskać dostęp do swojego konta, on sam podaje swój identyfikator, np. PESEL, czy też imię i nazwisko, a zatem sam się identyfikuje. System biometryczny służy tylko do potwierdzenia, że ta osoba, która dzwoni, jest tą, za którą się podaje.

System biometryczny, na podstawie zgromadzonego wcześniej dobrowolnie wzorca głosu może szybko i wygodnie potwierdzić tą zadeklarowaną tożsamość człowieka. Zadaniem systemu nie jest określenie „z powietrza” kim jest ta osoba która dzwoni. Między identyfikacją a weryfikacją jest zasadnicza różnica. Podobnie w przypadku logowania się na konto e-mail – najpierw dobrowolnie podajemy adres, a potem podajemy hasło. Potwierdzenie tożsamości w systemie biometrycznym jest jak wpisanie hasła do konta e-mail, czyli jest potwierdzeniem, że to my się logujemy. Rozwiązanie zaimplementowane w Resorcie Finansów na tyle tylko pozwala.

Wróćmy do różnicy między weryfikacją a identyfikacją.

Jest zasadnicza różnica miedzy tymi technicznymi procesami – proces identyfikacji, czyli wyboru jednego z wielu, a proces weryfikacji, czyli potwierdzenia deklarowanej tożsamości, to są dwa różne procesy. Wydajność tych procesów jest całkowicie inna. W przypadku identyfikacji, z punktu widzenia populacji podatników, nie jest możliwe z wysoką skutecznością, wystarczająca do jakichkolwiek praktycznych zastosowań, identyfikowanie osób na podstawie tak krótkiej próbki głosu, jaką się zostawia w systemie. Jedyne, co jest możliwe, to porównanie próbek głosu w celu weryfikacji. Ale najpierw musimy wiedzieć, z którą próbką już obecną w systemie to porównać, a tego dowiemy się dzięki aktywnemu i świadomemu deklarowaniu tożsamości przez podatnika.

O jak długich próbkach mówimy?

Jest to system ze stałym hasłem biometrycznym, czyli przy weryfikacji tożsamości rozmówców system zawsze posługuje się tym samym hasłem – tym samym dla wszystkich. A więc to nie treść hasła jest ważna, tylko jak brzmi glos danego użytkownika i czy się zgadza z deklarowaną tożsamością. Takie hasło musi być wystarczająco długie, żeby dostarczyć odpowiednio dużo informacji biometrycznej do sprawdzenia – w ten sposób zapewnia się wiarygodność weryfikacji. Ale hasło nie może być też zbyt długie, żeby nie było problematyczne w użyciu, podobnie jak długie hasła do konta e-mail są niepraktyczne. Ludzie nie lubią wpisywać zbyt długich haseł. Przy weryfikacji głosowej reguła jest podobna.

Jednostką, którą łatwo zmierzyć długość hasła biometrii głosowej to sylaby. W praktyce takie hasła powinny mieć od 8 do 15 sylab i w takie są stosowane przy wdrożeniach. Jednocześnie zdanie-hasło powinno być proste do wypowiedzenia, wygodne, a przy tym zróżnicowanie fonetycznie.

Jakie są zalety takiego rozwiązania nad weryfikacją opartą o wiedzę?

Po pierwsze, to jest rozwiązanie, które nie musi zastępować jakiegoś rozwiązania, lecz może je uzupełniać. Np. może uzupełniać rozwiązanie oparte na wiedzy. Użytkownik podaje imię, nazwisko i podaje swój PESEL, co jest podstawową weryfikacją na podstawie wiedzy. Taka weryfikacja jest uzupełniona o weryfikację biometryczną.

Pierwsza zaleta – ogólnie mówiąc, niekoniecznie w kontekście akurat tego wdrożenia w Ministerstwie Finansów – to wygoda dla użytkownika. Jeżeli korzystamy z medium telefonicznego jako formy kontaktu, to dla nas naturalną formą komunikacji jest mowa. A więc i weryfikacja tożsamości za pomocą mowy jest bardziej naturalna dla nas jako ludzi. Posługiwanie się numerami PIN, hasłami, jest wytworem sztucznym. W szczególności, jeśli jeszcze mamy te hasła wstukiwać za pomocą klawiatury numerycznej na smartfonie, jest to bardzo niewygodne. Trzeba się przełączyć w tryb klawiatury, pamiętać hasło – cały ten proces jest dość niewygodny. Powiedzenie hasła jest bardzo wygodne i szybkie, daje dużą wygodę użytkownikowi. Cały proces trwa 3 sekundy.

Druga zaleta – jeżeli rozmawiamy z konsultantem z urzędu lub banku i identyfikujemy się przed tą osobą, to odsłaniamy wiedzę służącą do weryfikacji lub identyfikacji. Przekazanie numeru np. PESEL lub PIN to już jest przekazanie temu operatorowi informacji. Jest to też słaby element całego systemu bezpieczeństwa opartego na wiedzy. A przekazać wiedzy o biometrii się jemu nie da, bo on nie ma możliwości podszycia się pod nas, skopiowania naszych danych biometrycznych.

W końcu, jeżeli system działa w sposób automatyczny, to jest możliwa redukcja kosztów i przyspieszenie realizacji. Nie musimy czekać w kolejce do konsultanta, który musi zadać nam pytanie o nazwisko panieńskie matki, żeby zrealizować cel rozmowy, tylko w międzyczasie realizujemy weryfikację i od razu jesteśmy przekierowani we właściwe miejsce.

Taki system zrealizowany odpowiednio daje też możliwość podniesienia bezpieczeństwa. Wiedzę o tym, jakie kto ma nazwisko panieńskie matki czy adres zamieszkania łatwo jest zdobyć, podobnie jak podpatrzyć hasło merytoryczne czy pin. Natomiast podrobić wzorzec biometryczny czy sygnał biometryczny nie jest już tak łatwo jakby się mogło wydawać na pierwszy rzut oka.

Jest więc szereg zalet, które mogą przemawiać za takimi rozwiązaniami. Ważną kwestią jest adekwatność doboru konkretnej technologii do konkretnego sposobu interakcji, kanału dostępu. W przypadku rozmowy telefonicznej weryfikacja głosowa wydaje się najbardziej naturalną forma, nie wymaga od nas zmiany skupieni miedzy rozmowa a wpisaniem PINu. Nie musimy przełączać naszego umysłu z używania mowy naturalnej na techniczne czynności typu wpisanie hasła, przeglądanie faktur czy umów w poszukiwaniu numeru klienta, czy wysokości ostatniej faktury. Pod tym względem jest dużo wygodniejsze. Wiele zależy w jaki sposób jest system wdrożony, w jakim celu, w jakim kontekście – jeżeli dobrze go zaplanujemy i wdrożymy, to wtedy on będzie mógł dobrze spełniać swoje zadanie.

Proszę opowiedzieć o bezpieczeństwie takiego rozwiązania w porównaniu do standardowych form knowledge-based. Czy są jakieś szczególne zagrożenia związane z tym systemem weryfikacji?

Kwestie bezpieczeństwa takiego systemu należy rozpatrywać na różnych poziomach. Rozpoczynając od analizy wysokopoziomowych kwestii: czy polityka bezpieczeństwa wdrożona w instytucji i architektura systemu informatycznego, komunikacja serwera z bazami danych są odpowiednio obsłużone, zgodnie z zasadami, aż po poziom adekwatności wdrożenia. Nie wszystkie metody biometryczne w każdej sytuacji się dobrze sprawdzają. Ta kwestia adekwatności też będzie wpływała na bezpieczeństwo systemu.

Dopiero na najniższym poziomie znajduje się dokładność tego procesu biometrycznego – porównania wzorca z dźwiękiem mowy. Poziom bezpieczeństwa takich systemów (systemów głosowych ze stałym hasłem) jest porównywalny z bezpieczeństwem systemów opartych o weryfikację odcisku palca. Systemy typu fingervein, polegające na prześwietlaniu struktury naczyń krwionośnych w dłoni, są bezpieczniejsze, ale są też bardziej skomplikowane, wymagają droższych sensorów, bardziej wyrafinowanej infrastruktury zaangażowanej w cały proces.

Jak wspomniałem, poziom bezpieczeństwa systemu głosowego jest porównywalny z systemami opartymi o odcisk palca, a pod pewnymi względami system głosowy może zapewniać także większe bezpieczeństwo. Na pewno system głosowy jest wygodniejszy, gdyż nie wymaga dodatkowych urządzeń. Nie każdy telefon komórkowy ma czytnik linii papilarnych, ale każdy ma mikrofon. Trudno też użyć odcisku palca do uwierzytelnienia w rozmowie telefonicznej.

Bezpieczeństwo takich systemów należy też rozpatrywać na dwa sposoby: pierwszy, jakie jest ryzyko złamania takiego systemu, oraz jakie jest ryzyko, ze nie uda się nam prawidłowym użytkownikom skorzystać z takiego systemu. To jest kompromis, zgoda na pewną proporcję. Jesteśmy w stanie te kwestie regulować. Im system jest bezpieczniejszy, tym mniejsza wygoda jego używania, czyli większe ryzyko, ze w uprawnionemu użytkownikowi nie uda się zweryfikować. Możemy pójść w kierunku użyteczności, czyli założyć, ze taki system ma nam ułatwić życie, a nie chronić nasz skarbiec. Odpowiednio dostosowując parametry możemy rozszerzyć te „drzwi” systemu, wtedy „usability” będzie lepsze, ale ryzyko włamania też odpowiednio wyższe. Dla tego typu systemów możemy regulować to w bardzo szerokim zakresie, od ryzyka włamania na poziomie jednej dziesiątej promila w pojedynczej próbie aż do prawie całkowitego wyeliminowania takiej możliwości. To jest kwestia doboru tego, czego oczekujemy. „Usability”, czyli wygoda korzystania, czy innymi słowy skuteczność dla przeciętnego użytkownika, kształtuje się na poziomie powyżej 95 % skuteczności.

Skuteczność, czyli rozpoznanie w jednej próbie?

Tak. Jest jeszcze jedna bardzo ważna z punktu widzenia bezpieczeństwa rzecz. Możemy założyć, że taki system dopuszcza w jednej sesji czy transakcji, w jednej interakcji z dana instytucją, możliwość maksymalnie trzykrotnej próby weryfikacji. Tak jak w przypadku PIN – mamy tylko trzy próby, potem karta jest blokowana. To już jest kwestia wdrożenia, nie dotyczy to samej technologii biometrii, tylko tego jak ją zastosujemy. Każdy może to zrobić po swojemu i tutaj jest to kwestia polityki i strategii działania, a nie samego algorytmu biometrycznego. Jeżeli system zostanie w ten sposób uruchomiony i dopuścimy trzy próby weryfikacji, to użyteczność i bezpieczeństwo może być niezwykle poprawione.

To jest bardzo ważny czynnik – sposób wdrożenia daje nam bardzo dużą możliwość regulacji jak ma się system zachowywać. Należy zdecydować jakie mają być parametry systemu. Jeżeli ma być wyjątkowo bezpieczny, to zaleca się go jako faktor dodatkowy (additional factor verification) – to znaczy, że wykorzystujemy wiedzę, biometrię, i jeszcze jakiś token, np. fakt, że dzwonię ze swojego telefonu. Jeżeli zależy na szybkiej i wygodnej interakcji, na wygodnym potwierdzeniu tożsamości, to możemy pójść w stronę użyteczności.

Przejdźmy do nieco bardziej technicznych pytań. Zakładając, ze ktoś dobierze się do bazy danych próbek – czy to może być niebezpieczne w jakiś sposób? Jakie jest zabezpieczenie samej próbki głosu (voice-print), przechowywanej w systemie? Do czego mogę wykorzystać taki voice-print, jeżeli wejdę w jego posiadanie?

W bazie danych nie ma potrzeby przechowywania nagrań użytkownika. To nie jest tak, że system po takiej transakcji przechowuje to nagranie głosu w postaci pliku .wav czy .mp3, ani w postaci jakiegoś innego zapisu konkretnego dźwięku. Tu jest podobnie jak z dobrze zbudowanymi systemami logowania za pomocą e-mail – przechowywane są skróty z tej informacji o e-mail i haśle, a nie samo hasło. Jeżeli gdzieś w systemie w sposób jawny, czy nawet zaszyfrowany, ale możliwy do odszyfrowania, przechowywane jest hasło, to znaczy, że jest to źle zbudowany system.

Podobnie w przypadku biometrii głosowej – nie jest wymagane przechowywanie nagrania. Jest przechowywany voice-print, który jest rodzajem skrótu statystycznego tego nagrania. Taki skrót nie umożliwia odtworzenia nagrania i wykorzystania go gdzie indziej. Skrót jest poza tym unikalny dla danego systemu. To nie jest tak jak obraz twarzy, zdjęcie czy odcisk palca rozumiany jako graficzny odcisk zawierający linie papilarne. To jest skrót statystyczny z takiego nagrania, nieodwracalny, i to ten skrót reprezentuje tożsamość użytkownika, a nie nagranie. Wydobycie voice-printu nie pozwala na zalogowanie się do systemu, z którego go wydobyliśmy, a zalogowanie się do jakiegoś innego systemu jest również zupełnie wykluczone.

Czyli informacja przechowywana we wzorcowej bazie danych to tylko bardzo mała część wiedzy o próbce głosowej, nigdy cała próbka, i nie można tego wykorzystać do zalogowania się.

Dokładnie. Dodatkowo takie systemy maja zabezpieczenie przed powtórnym wykorzystaniem nagarnia, które już było raz wykorzystane. Są metody które pozwalają wykryć, czy próbka nagrywana w czasie weryfikacji klienta pochodzi rzeczywiście od klienta a nie z nagrania czy innego systemu. Są również algorytmy, które pozwalają na stwierdzenie czy dana próbka nie była czasem już wcześniej wykorzystana do logowania się do danego systemu. Zapisywane są pewne znaczniki, które pozwalają na określenie, że ktoś posługuje się podsłuchanym nagraniem, np. w sytuacji, w której ktoś uprawniony używał tego systemu. Jeżeli ktoś nam zainstaluje oprogramowanie szpiegowskie, które tę próbkę przejmie i prześle, a ktoś tę próbkę będzie chciał wykorzystać, to taki system biometryczny to wykryje.

W dodatku to nie jest tak, że system akceptuje każdy dźwięk. Takie nagranie musi spełniać określone warunki, np. co do jakości dźwięku. Warunki te muszą być spełnione zanim próbka zostanie zaakceptowana i sprawdzona, czy to jest ta osoba czy nie. Nawet jeżeli to jest ta osoba, ale prezentuje bardzo złej jakości sygnał, to nie chcemy w ogóle podejmować procesu weryfikacji na takim sygnale. To tak jakbyśmy próbowali uznać czyjś podpis na piątym kserze umowy gdy ten podpis ledwo widzimy. System unika weryfikacji, jeżeli nie jest pewny co do jakości i prosi o podanie jeszcze raz takiej próbki i wtedy sprawdza również, czy kolejna próbka jest inna, czy jest może kopią bądź odtworzeniem. Człowiek zawsze trochę inaczej powie nawet to samo hasło. Wszelkie takie próby są rejestrowane. Jeżeli jest jakieś ryzyko, że to może być atak, że powtarzają się niewłaściwe działania na koncie określonej osoby, to takie konto też może być zrewidowane. Może pojawić się prośba o reset voice-printu. Zupełnie podobnie jak wtedy, gdy ktoś wykryje, ze dane konto e-mail było atakowane metodą brute-force.

Podstawowa obawa wielu osób dotyczy tego, że pin czy hasło, jeżeli zostanie ujawnione, możemy łatwo zmienić. Z głosem jest nieco trudniej. Jeżeli ktoś zdobyłby próbkę głosu, której będzie mógł użyć do zalogowania, albo modulować nasz głos i w ten sposób oszukać system, to ta funkcja weryfikacji głosem jest dla nas stracona na zawsze.

Ważne jest, że to jest system, który pracuje na konkretnym haśle biometrycznym. To nie jest system, który to hasło przyjął sobie ot tak bo fajnie brzmi, a system mierzy tylko jakieś uniwersalne charakterystyki głosu. To jest system, który mierzy charakterystyki głosu tylko w kontekście konkretnego hasła, które sobie zarejestrowaliśmy.

Czyli dobór hasła też nie jest przypadkowy? Hasło jest specjalnie dobrane, aby wydobyć określone charakterystyki?

Te charakterystyki są wydobywane automatycznie przy zastosowaniu metod typu machine-learning, przetwarzania danych, analizy sygnałów. Hasło musi być odpowiednio zróżnicowane fonetycznie, żeby reprezentować różne głoski i dać zróżnicowany obraz naszego języka. Jednocześnie powinno być wystarczająco wygodne do powiedzenia, naturalne, żeby nie był to jakiś łamaniec językowy typu chrząszcz brzmi w trzcinie – to nie jest wygodne i powodowałoby błędy np. brak akceptacji treści tego hasła. W obrębie tego hasła system sam określa, które cechy biometryczne są przydatne do weryfikacji.

Jeżeli ktoś będzie chciał zrobić system, który będzie próbował na bazie jakiś danych imitować głos innej osoby, to ten system musiałby zadziałać od pierwszej próby. Jeżeli nie uda się w pierwszej próbie włamać, to w drugiej, trzeciej, kolejnych, system biometryczny, który miałby być atakowany rozpozna sytuacje, że taki atak ma miejsce. To jest tak zwany hill-climbing attack. W metodzie brute-force różne hasła są wpisywane w celu znalezienia tego właściwego. Tutaj ktoś będzie w różny sposób zmieniał ustawienia tego modulatora dźwięku, żeby dopasowało to się do systemu biometrycznego. Takie działanie podniesie alarm. System jest na to uodporniony. Zwróćmy uwagę, że ten mechanizm, który zabezpiecza nas przed powtórnym wykorzystaniem tej samej próbki, zabezpiecza nas również przed powtórnym wykorzystaniem takiego modulatora. Nawet jeżeli jakimś cudem, bardzo mało prawdopodobnym, udałoby się takiemu modulatorowi włamać na czyjeś konto, to za drugim razem już nie będzie to możliwe, bo system wykryje, ze ktoś używa tej samej charakterystyki dźwiękowej do próby logowania.

Czy możliwy jest, nazwijmy to, voice spoofing? Czy jest możliwe, aby dwie osoby miały tak zbliżoną charakterystykę głosu i mogły nawzajem się weryfikować w systemie?

Teoretycznie jest to możliwe. To zależy jak ustawimy próg akceptacji. W skrajnym wypadku nigdy nikomu nie uda się zalogować do systemu, bo będzie tak silny system ze nawet uprawnionych nie będzie wpuszczał. To jest oczywiście przesada. Teoretycznie jest możliwe znalezienie dwóch takich samych osób, tzn. takich nazwijmy to bliźniaków głosowych. Gdyby ktoś podjął takie działanie, żeby znaleźć taką osobę, której głos jest podobny do głosu atakowanego i chciał wykorzystać ją, żeby się próbowała włamać, to musimy pamiętać, że to co my ludzie słyszymy jako głos podobnej osoby, bo brzmi podobnie, to jest drobna część tego, co analizuje system biometryczny. System bierze pod uwagę nie tylko to jak głos brzmi, ale oprócz tego jeszcze dużo innych czynników, których człowiek nie słyszy.

Słuch ludzki jest w pewien sposób ułomny. Różne efekty, np. maskowanie psychoakustyczne, nieliniowość słyszenia, czułość, powodują że części dźwięków człowiek po prostu nie słyszy i nie jest w stanie ich określić. Prowadziliśmy takie badania, w których aktor głosowy próbował naśladować głosy wytypowanych osób, dla których on sam stwierdził, że jest w stanie najbardziej przybliżyć swój glos do tych osób. Posiłkował się również technicznymi metodami, ponieważ ma wiedzę w tym kierunku, jak zmodyfikować swój trakt głosowy żeby częstotliwości formantowe się zgadzały, żeby dynamika mowy, intonacja się zgadzały. Był w stanie oszukać kilkanaście procent słuchających. Natomiast w żadnym z wypadków nie był w stanie oszukać systemu biometrycznego. Po prostu biometria to coś więcej niż to, co my rozumiemy jako barwa głosu.

Jak działa ten konkretny system biometryczny to jest tajemnica, nie są znane szczegóły samego algorytmu. Gdybyśmy chcieli więc wykorzystać dużą populację ludzi i znaleźć osobę, która jest w stanie się włamać na konto naszej ofiary, to musielibyśmy każdą z tych osób poprosić, aby próbowała się włamać n-krotnie do systemu, a to jest atak typu brute-force i na ataki tego typu istnieją standardowe metody obrony, które zostały zastosowane. Ktoś musiałby spośród kilku tysięcy osób znaleźć tę jedną i w pierwszych trzech próbach trafić. System bierze pod uwagę zarówno cechy biologiczne, czyli budowę anatomiczna, jak i cechy behawioralne, sposób mówienia, iloczas, prędkość, bardzo różne czynniki i kombinacje tych czynników. To nie jest tak, że on mierzy, że twoja częstotliwość formantowa f1 wynosi 1300 Hz dla jakiejś głoski i sobie zapisuje i porównuje te częstotliwości. System bada jak wszystkie różne cechy głosu współpracują ze sobą, jak one jedne na drugie wpływają. Człowiek nie jest w stanie kontrolować tych wszystkich aspektów i znaleźć jakiegoś analitycznego jednoznacznego opisu tych zależności, żeby moc np. spreparować taki dźwięk albo znaleźć osobę, która mogłaby posłużyć jako wytrych.

A co w sytuacji, gdy osoba która będzie próbowała się zalogować, ma np. wadę wymowy, głos pod wpływem emocji, albo chrypkę?

Są sytuacje, w których taki system biometryczny nie dopuści takiej osoby. Do takich sytuacji rzeczywiście mogą należeć ciężkie zapalenie krtani, stan głębokiego upojenia alkoholowego, kiedy nie mamy kontroli nad swoja artykulacją, zmiany neurologiczne po wypadku. Lżejsze schorzenia typu katar czy lekka chrypka nie będą miały zasadniczego wpływu na skuteczność. W najgorszym wypadku system da drugą szansę, żeby się upewnić, że to rzeczywiście ta konkretna osoba. To jest sytuacja podobna jak wtedy, kiedy posługujemy się odciskiem palca. Jak się oparzymy w ten palec, to przez pewien czas linie mogą być nieczytelne. Są pewne ograniczenia, ale to nie są sytuacje, które z punktu widzenia użyteczności takiego systemu zasadniczo uniemożliwiałyby jego użytkowanie.

Taki system uczy się głosu użytkownika. On śledzi jego zmiany. W ten sposób zapewnia utrzymanie pewnej skuteczności działania. Co ciekawe, skuteczność takiego systemu będzie zawsze rosła, im więcej użytkowników będzie. Wiedza systemu o tym, jak użytkownicy wykorzystują takie rozwiązanie powoduje, że system może lepiej działać, zapewnić jeszcze większą skuteczność każdemu indywidualnemu użytkownikowi. Tu chodzi oczywiście o pewną wiedzę statystyczna, nie o wiedzę partykularną o danej osobie.

Odejdźmy od tego konkretnego systemu i porozmawiajmy w szerszym kontekście – co można z analizy mowy, przetwarzania, jeszcze wyciągnąć. Rozmawialiśmy o analizie głosu poddanego emocjom. Przedstawiciele firmy Nemesysco, twierdzą, że opracowali system, który może analizować mowę i na tej podstawie skutecznie wyciągać informacje o emocjach i chorobach, które użytkownik tej mowy posiada. Jak to jest możliwe?

Wszystkie tego typu nowoczesne systemy, oparte o wyniki badan naukowych, działają na zasadzie machine-learningu. Przyjmują dane wzorcowe, na podstawie tych danych wzorcowych budują sobie jakiś model statystyczny, siec neuronową albo stosują jakieś inne rozwiązanie , które później służy do stawiania hipotez, że np. dane nagranie mowy należy do kogoś przestraszonego, pod wpływem alkoholu czy kogoś, kto ma raka krtani. Wszystkie te systemy budowane są w oparciu o wiedzę ekstrahowaną automatycznie z nagrań przykładowych. Na tyle, na ile dobre są te nagrania wzorcowe emocji czy innych stanów, na tyle dobry może być taki system.

Takie systemy rzeczywiście są możliwe do zbudowania. Można próbować wykrywać, czy ktoś jest pod wpływem alkoholu, ale zawsze taki system będzie działał lepiej, jeżeli znane jest nagranie tej dokładnie osoby kiedy nie jest pod wpływem alkoholu. Można próbować wykrywać sytuacje, gdy ktoś jest pod wpływem stresu. Można próbować to robić dla obcej osoby, ale dużo lepiej to będzie działać dla osoby, dla której posiadamy referencyjny wzorzec nagrania nie pod wpływem stresu.

Istnieją też rozwiązania, które pozwalają wykrywać rożnego typu schorzenia – o charakterze neurologicznym, czy o charakterze psychicznym typu depresja. Ta analiza odbywa się na bardzo wielu poziomach, podobnie jak w biometrii tożsamościowej – analizowane są zarówno cechy anatomiczne, fizjologiczne i behawioralne, czyli sposób mówienia, aż do tego co kto mówi, jakich słów używa, jak szybko oddycha, jak stawia przecinki. Wszystkie te elementy mogą wchodzić do opisu danej kategorii, typu strach, rak krtani, upojenie alkoholowe itd. I na wszystkich tych płaszczyznach można budować taki syntetyczny wzorzec jakieś kategorii i to stosować. Skuteczność będzie bardzo zmienna, zależna od warunków, od konkretnej próby. Takie systemy analizy emocji czy medyczne w laboratoriach badawczych nie maja skuteczności 99%. Raczej zatrzymuje się to między siedemdziesiąt a osiemdziesiąt kilka procent.

To i tak dużo.

To dużo, ale w przypadku zastosowań biznesowych to nie jest na tyle dużo, żeby to się zawsze opłacało wykorzystać, albo żeby mogło służyć jako w pełni autonomiczny element decyzyjny.

Rozmawialiśmy o weryfikacji użytkownika. Teraz chciałbym przejść do identyfikacji i potencjalnych możliwości identyfikacji z wykorzystaniem analizy głosu. To by mogło mieć pozytywne zastosowanie, związane z bezpieczeństwem, np. identyfikacja przestępców w przypadku informacji telefonicznej o podłożeniu bomby.

Jeżeli mamy sygnał, który pochodzi od osoby podejrzanej o niecne cele i jednocześnie mamy wytypowane wzorce osób, które wcześniej podejmowały się takiej działalności, albo mamy hipotezę, że to jest jedna z tej grupy osób z grupy ryzyka, to jesteśmy w stanie z pewną skutecznością dokonać identyfikacji tej osoby spośród tych podejrzanych wzorców. Jeżeli mamy taką wstępną listę osób, to z pewnym prawdopodobieństwem możemy określić, że głos osoby z nagrania należy do któregoś z tych wzorców. Natomiast nie jest możliwe, żeby mieć np. zarejestrowane głosy wszystkich obywateli, monitorować wszystkie rozmowy i znajdować przyporządkowania wszystkich rozmów do obywateli. Dużo łatwiej to zrobić za pomocą analizy metadanych komunikacyjnych niż analizy samego głosu. Bo skuteczność takiego rozpoznania „jeden do wielu” jest odpowiednio niższa niż skuteczność rozpoznania „jeden do jeden”. Z technicznego punktu widzenia taka technologia nie będzie mogła być obecnie wykorzystana.

Czyli problem to tylko złożoność procesu, brak mocy obliczeniowej?

Nie, jest to związane z tym, że w takiej sytuacji musimy weryfikować wszystko względem wszystkiego, a to jest proces, który przy pewnym dopuszczalnym poziomie błędu false-positive będzie miał rażąco niską skuteczność. Jeżeli ryzyko błędu false-positive to będzie 1/10 promila, to jeżeli mamy milion użytkowników i to pomnożymy to nam daje poziom błędu 100%, wtedy na pierwszym miejscu nigdy właściwie nie dostaniemy właściwego wskazania. Jest to więc nieużyteczne. Kiedy jest wytypowana niewielka próba tych głosów, czy też wzorców mowy, jesteśmy w stanie je przyporządkować z mniejszą lub większą dokładnością, ale nie jesteśmy w stanie wszystkich wzorców wszystkich użytkowników jakich mamy zapisanych przyporządkować do wszystkich nagrań jakie się dzieją w danej chwili.

Wasze rozwiązanie – w czym jest lepsze od innych systemów?

Nasz system VoicePIN jest pierwszym systemem biometrycznym opracowanym w Polsce, który jest możliwy do wdrożenia, który może służyć ludziom. Były prowadzone badania nad takimi systemami w różnych ośrodkach naukowych, firmy podejmowały próby wdrożenia, ale ten system jest pierwszym wypracowanym w Polsce rozwiązaniem funkcjonalnym z punktu widzenia rynku i ma już kilka produkcyjnych wdrożeń u dużych klientów.

Różnice dotyczą np. pewnych funkcjonalności specyficznych, które system może oferować. Nasz system obsługuje nie tylko weryfikację tożsamości, ale też weryfikację intencji klienta. Można w taki sposób wdrożyć system, że będzie nie tylko potwierdzał tożsamość, ale tez potwierdzał to, co klient chciałby zrobić, np. autoryzować konkretny przelew. Co więcej, jest to dość świeży system i jest oparty o najnowsze wyniki badań naukowych. Jest systemem, który ma ambicje być obecny na rynku globalnym poprzez wdrożenie jako system SaaS (Software-as-a-Service). Jest niezależny od języka – może działać w każdym języku świata, nie jest wymagane rozpoznawanie rozmowy – jest to unikalna cecha tego systemu. Pracujemy też nad pewnymi nowymi rozwiązaniami, ale o których nie mogę mówić szczegółowo ze względu na ochronę tych pomysłów. Nowe funkcje dotyczą zastosowania multimodalnego, czyli wykorzystania wielu różnych typów biometrii w jednym rozwiązaniu, ale ciągle takich, które nie wymagają innych czujników, sensorów, lecz są zintegrowane z tym, co do tej pory mamy.

Dziękuję za rozmowę.

About Redakcja 310 Articles
Omni Modo to po łacinie „na każdy sposób”. Nazwa naszej firmy to nie przypadek. Na każdy sposób chcemy bowiem pokazywać klientom nasze doświadczenie, profesjonalizm i sukcesy w dziedzinie ochrony danych osobowych.