Big Data w biznesie

Danymi osobowymi mogą być w zasadzie wszystkie informacje, które odnoszą się do zidentyfikowanej (ewentualnie możliwej do zidentyfikowania) osoby fizycznej. Jest to bardzo ważna konkluzja w dzisiejszym zinformatyzowanym świecie, opierającym się na globalnym transferze różnego rodzaju informacji. W praktyce bowiem podmioty oferujące swoje usługi, starają się zgromadzić i przetworzyć jak największą ilość informacji o klientach w celach przedstawienia najlepiej dostosowanej do ich potencjalnych potrzeb oferty marketingowej, uzyskując w ten sposób przewagę nad konkurencją. Zjawisko gromadzenia wielkich baz danych nazywane jest obecnie Big Data. Początki tego procesu sięgają lat siedemdziesiątych, jednak w ostatnim czasie, zapewne z racji ogromnych możliwości technicznych, oraz stale rosnącej popularności różnego rodzaju portali społecznościowych, wokół Big Data, narosło sporo kontrowersji. Wielu bowiem ekspertów zastanawia się nad dopuszczalnością zakresu przetwarzania danych, wskazując na możliwość naruszenia praw i wolności osób, których dane dotyczą. Inni z kolei podkreślają, iż jest to swoisty znak czasów, ponadto korzyści związane z Big Data (np. rozwój nauki) mają nieocenioną wartość. Na czym zatem polega Big Data? Jakie niesie ze sobą możliwości i zagrożenia? Do jakich celów mogą być wykorzystywane dane osobowe w związku z Big Data?

Co to jest Big Data?

Celem Big Data jest gromadzenie, a przede wszystkim analiza baz danych, pod kątem wykorzystania pozyskanych informacji głównie (ale nie jedynie) w celach biznesowych. Wnioski płynące z analizy danych, mają służyć stworzeniu profili klientów, dzięki czemu będzie można przygotować ofertę maksymalnie dopasowaną do upodobań konkretnej grupy odbiorców. Istotnym jest, że analiza danych musi dostosowywać się do szybko zmieniających się warunków rynkowych. Oczywiście w zależności od charakteru podmiotu korzystającego z Big Data, będą zbierane różnego rodzaju kategorie danych, same zaś dane będą miały rożną wartość. Inne dane będą bardziej pożądane przez podmioty np. z sektora finansowego, inne zaś z telekomunikacyjnego. Jednak sam mechanizm pozyskiwania i analizy danych, oraz ich praktycznego wykorzystania będzie podobny.

Odrębną, budzącą chyba najwięcej kontrowersji, jest kwestia źródła pozyskiwanych informacji. Bardzo często właśnie w tym kontekście padają najpoważniejsze zarzuty związane z ochroną prywatności osób fizycznych. Generalnie niemożliwym jest określenie zamkniętego katalogu źródeł pozyskiwania informacji w związku z Big Data. Jak podkreślają osoby zawodowo zajmujące się analizą danych, podstawą sukcesu Big Data jest pozyskiwanie informacji z wielu źródeł.

Potężnym źródłem informacji będzie niewątpliwie Internet. Związane jest to z działalnością portali społecznościowych, forum, blogów itp., za pośrednictwem których, osoby mogą udostępniać szereg informacji o swoich zainteresowaniach. W przeważającej większości przypadków, podmioty odpowiedzialne za funkcjonowanie tego typu portali, nie przekazują danych bezpośrednio do innych firm. Jednakże za pomocą np. Facebooka, można pobierać szereg informacji o aktywności użytkowników, np. za pomocą korzystania z zamieszczonych aplikacji. Takie pozyskiwanie danych odbywa się za zgodą użytkownika, który akceptuje przystąpienie do aplikacji, jednak, bardzo często taka zgoda jest udzielana bez zastanowienia się nad jej konsekwencjami. Niewątpliwie wynika to z niewystarczającej świadomości ludzi w przedmiocie ochrony danych osobowych, oraz co równie istotne, z modelu jaki funkcjonuje przede wszystkim pośród młodych ludzi – dzielenia się w sieci całym swoim życiem.

Wiele informacji o nas pozostawiają również coraz popularniejsze urządzenia mobilne. W celu wykorzystania pełnej ich funkcjonalności, decydujemy się na instalowanie różnych aplikacji, które mają dostęp do informacji stanowiących dane osobowe. Dzięki temu, firmy mogą mieć dostęp to poszukiwanych przez nas treści w Internecie.

Źródłem wiedzy, mogą być również wpisywane hasła w wyszukiwarkach internetowych.

W praktyce wygląda to w ten sposób, że podmiot który korzysta z dobrodziejstw Big Data, analizuje i „obrabia” dane zdobyte dzięki plikom „cookies”, które zapisują naszą aktywność w sieci (pamiętajmy, że zapisywanie plików podtrzymujących sesje bardzo często nie może zostać wyłączone przez użytkowników). Dzięki temu jesteśmy w stanie stworzyć profil konkretnej osoby, kryjącej się nie tyle pod imieniem i nazwiskiem, co pod numerem IP. Naturalnym jest wystąpienie pewnego marginesu błędu. Z jednego komputera może bowiem korzystać wiele osób, co doprowadza do pewnego zniekształcenia obrazu, w efekcie czego stworzony zostaje błędny profil. Może być to spowodowane również zbyt małą ilością zebranych danych.

Oczywiście Internet nie jest jedynym źródłem pozyskiwania danych. Firmy bazują często na analizie sposobów wykorzystania zakupionych u nich usług (produktów). Na Przykład w centrum zainteresowania banków będą nie tylko nasze wpływy, ale również co i gdzie kupujemy, za jakie produkty i w jakich sklepach płacimy kartą, co kupujemy w sklepach internetowych.

Co z tą informacją?

Kolejnym ważnym zagadnieniem jest próba ustalenia w jaki sposób i do jakich celów mogą być wykorzystywane zebrane informacje. Wyraźnie należy wskazać, że koncepcja Big Data nie polega na samym zbieraniu informacji, ale przede wszystkim na ich precyzyjnym (przy założeniu pewnego, naturalnego, wynikającego ze sposobu pozyskiwania danych, marginesu błędu) analizowaniu. Tak jak wspomniałem na wstępie, Big Data to operowanie na wielkich bazach danych. Zatem w jaki sposób z morza informacji, wyłowić te które są istotne z punktu widzenia biznesowego? Przede wszystkim niezbędnym jest dobranie właściwych i sprawdzonych metod i algorytmów matematycznych. W obliczu nagłych i nieprzewidywalnych zmian sytuacji rynkowej, nie wystarcza już jedno bądź dwa źródła pozyskiwania danych, które wystarczały np. w dotychczasowej ocenie ryzyka kredytowego. Modele analityczne w oparciu o zasady Big Data potrafią dokonywać analizy setek, a nawet tysięcy informacji pochodzących z różnych źródeł i na ich podstawie zaprezentować odpowiednie wnioski. Wprowadzając zasady oparte na technologii Big Data, koniecznym stało się przetwarzanie różnorodnych danych, takich jak zdjęcia, dokumenty czy pliki video. W efekcie należało zintegrować wszystkie dostępne dane, które pochodziły zarówno z wielu źródeł, jak również od wielu odbiorców. Wielowymiarowe algorytmy koncepcji Big Data, aby zachowały swoją wysoką skuteczność, muszą w sprawny sposób korzystać z danych pochodzących z wielu źródeł oraz w bardzo krótkim czasie znaleźć wszystkie zależności pomiędzy nimi. Przykładem takiego innowacyjnego, samouczącego się algorytmu w oparciu o technologię Big Data, jest system zaprezentowany przez niemiecką firmę Kreditech, która jako Kredito24.pl działa również na rynku polskim. Pozwala on w rekordowo krótkim czasie dokonać oceny scoringowej danego klienta w oparciu o nawet 8000 punktów danych, takich jak lokalizacja GPS, e-commerce czy dane pochodzące z portali społecznościowych. Takie rozwiązanie do niedawna było nie do pomyślenia.[1]

Produktem finalnym analizy danych, będzie stworzenie pewnego profilu, pod który zostanie dopasowana konkretna oferta marketingowa. Prawidłowe procesowanie na zebranych informacjach, zapewni wysoką precyzyjność profilu i zwiększy szanse zainteresowania klienta skierowaną do niego propozycją. W praktyce, np. wpisanie na Facebooku informacji, iż planujemy spędzić urlop za granicą, wywoła lawinę ofert, począwszy od banków spieszących z ofertami kredytowymi na wydatki związane z wyjazdem, przez biura podróży, a kończąc na konkretnych hotelach, czy przewodnikach wycieczek. Pomimo, że wydaje się, iż jest to raczej scenariusz z „Matrixa”, to zapewne już niedługo powyższy opis, jako odnoszący się do powszechnej praktyki, nie będzie nikogo dziwił.

Zagrożenia

Bez wątpienia, gromadzenie i analiza ogromnej ilości informacji, może być źródłem zagrożeń naszej prywatności. Wyobraźmy sobie taką sytuację: wpisujemy z ciekawości w wyszukiwarkę hasło „kredyt bez BIK”. Dla banku, taka informacja może dowodzić o naszej złej historii kredytowej i w efekcie uzyskanie kredytu na preferencyjnych warunkach może okazać się niemożliwe. Kolejny przykład, wystawiamy na Facebooku zdjęcia z wycieczki, podczas której oddawaliśmy się urokom sportów ekstremalnych. Takie zdjęcie może zainteresować naszego ubezpieczyciela. Mogłoby to mieć wpływ na warunki konkretnej polisy ubezpieczeniowej.

Dużym ryzykiem przy analizach Big Data jest tzw. „overfit”, czyli nadmierne dopasowanie. Polega on na tym, że przy takiej ilości danych dojdzie do zbyt idealnego wyniku, a więc w sumie przekłamanego, nieprzydatnego do prognozowania. Pomimo, że algorytmy użyte w oparciu o zasady Big Data są coraz doskonalsze, to jednak nie można bezkrytycznie wierzyć we wszystkie wnioski, gdyż mogą one najzwyczajniej okazać się błędne. Wiele zależeć też może od dodatkowych czynników, które z jakiegoś powodu nie zostaną włączone do analizy.

Ryzyko związane z Big Data dostrzega również Generalny Inspektor Ochrony Danych Osobowych, który w wywiadzie dla Polskiego Radia stwierdził, iż „coraz więcej informacji na nasz temat jest zbieranych i są one gromadzone bez naszej wiedzy i zgody – nie chodzi o rzeczy, które świadomie stworzyliśmy, na przykład wpisy na portalach społecznościowych. Mowa o informacjach takich jak: gdzie nasz telefon łączył się z siecią, jakie zrobiliśmy zakupy, które książki wypożyczyliśmy z biblioteki, czy gdzie bywamy najczęściej”.[2]

Chociaż polskie prawo (w tym ustawa o ochronie danych osobowych) gwarantuje pewien poziom ochrony przed dowolnym pozyskiwaniem i przetwarzaniem informacji stanowiących dane osobowe, również w celach związanych z Big Data, to jednak wydaje się, że aby skutecznie regulować omawiany obrót informacjami, konieczna byłaby ich głęboka nowelizacja. Bez wątpienia bowiem, przepisy ustawy o ochronie danych osobowych, chociażby z racji daty jej uchwalenia (1997 r.) nie przystają do problemów z  jakimi dzisiaj musi zmierzyć się ochrona danych osobowych. Z drugiej strony nawet najlepsza ustawa, nie zatrzyma profilowania, w sytuacji, w której sami będziemy udostępniać szereg informacji o sobie z wykorzystaniem różnego rodzaju stron internetowych. Warto zatem dobrze zastanowić się zanim wystawi się w sieci różnego rodzaju opisujące nas treści. Jak bowiem wielokrotnie podkreślał GIODO, poziom bezpieczeństwa naszych danych, w dużej mierze zależy od nas samych. Big Data na pewno będzie się dalej rozwijać, udoskonalając metody analizy danych, w celu jak najlepszego wykorzystania zdobytych danych na potrzeby biznesu. Granica pomiędzy idealnie dopasowaną, podążającą za potrzebami klienta ofertą, a naruszeniem jego prywatności, jest cienka i często umowna.

Autor: Marcin Cwener

[1] Źródło: http://www.forbes.pl/idea-big-data-czyli-mozliwosci-zdobycia-przewagi-dzieki-umiejetnej-analizie-danych,artykuly,159073,1,2.html

[2]Źródło: http://www.polskieradio.pl/42/273/Artykul/1056917,GIODO-o-Big-Data-najwiekszym-zagrozeniem-sa-male-siostry-a-nie-wielcy-bracia

About Redakcja 304 Articles
Omni Modo to po łacinie „na każdy sposób”. Nazwa naszej firmy to nie przypadek. Na każdy sposób chcemy bowiem pokazywać klientom nasze doświadczenie, profesjonalizm i sukcesy w dziedzinie ochrony danych osobowych.