Wystarczy kilkanaście sekund twojego głosu z TikToka - i oszust może zadzwonić do twojej mamy podając się za ciebie. Globalne straty z powodu deepfake'ów głosowych sięgają 40 miliardów dolarów rocznie. Sprawdź jak działa ta technologia i jak się przed nią bronić.

Czym jest vishing i deepfake głosowy?

Vishing (ang. voice phishing) to wyłudzanie pieniędzy lub danych przez rozmowę telefoniczną. Sama metoda nie jest nowa - od lat oszuści podszywają się przez telefon pod banki, policję czy bliskich. To, co zmieniło się radykalnie, to narzędzia: sztuczna inteligencja i klonowanie głosu sprawią, że za telefonem stoi syntezator mowy, który brzmi jak ktoś, kogo znasz.

Deepfake głosowy to nagranie lub mowa generowana przez model AI na podstawie próbek prawdziwego głosu. Technologia potrafi odtworzyć barwę, rytm i sposób mówienia konkretnej osoby - do złudzenia podobnie do oryginału.

Tradycyjny spoofing, który pozwala podmienić wyświetlany numer, opisywaliśmy wcześniej w artykule o spoofingu numeru telefonu. Deepfake głosowy dodaje do tego kolejną warstwę: fałszuje nie tylko numer, ale i głos dzwoniącego.

Skala problemu - liczby z 2025 roku

  • Globalne straty spowodowane vishing i deepfake głosowym: 40 miliardów dolarów rocznie
  • Liczba ataków vishingowych wzrosła o 442% w 2025 roku
  • Badanie McAfee: 1 na 4 dorosłych doświadczył próby oszustwa z użyciem sklonowanego głosu AI
  • Ponad 10% banków na świecie zgłasza straty z tytułu deepfake vishingu przekraczające 1 milion dolarów
  • Koszt stworzenia przekonującego fałszywego połączenia: poniżej 1 dolara, czas: mniej niż 20 minut

Jak działa klonowanie głosu AI?

Jeszcze kilka lat temu stworzenie przekonującego deepfake'u głosowego wymagało specjalistycznego sprzętu i godzin nagrań. Dziś wystarczy:

  • Kilkanaście sekund próbki głosu - z TikToka, YouTube, Instagrama, podcastu, nagrania z rodzinnego eventu
  • Ogólnodostępne narzędzie AI - dostępne online za kilkadziesiąt dolarów miesięcznie, a część działa bezpłatnie
  • Kilka minut generowania - model uczy się próbki i potrafi wypowiadać nowe zdania w sklonowanym głosie

Szczególnie niepokojąca jest technika FOICE - system, który potrafi wygenerować prawdopodobny głos osoby wyłącznie na podstawie jej zdjęcia, szacując charakterystykę głosu na podstawie wyglądu twarzy. Oznacza to, że nawet brak nagrań głosowych w sieci nie chroni w 100% - wystarczy publiczne zdjęcie na Facebooku.

Na czarnym rynku działa już Voice Cloning-as-a-Service (VCaaS) - usługi klonowania głosu na zamówienie dostępne w darknecie.

Jak wyglądają ataki w praktyce?

Scenariusz 1 - Klonowanie głosu bliskiej osoby

Najczęstszy i najgroźniejszy wariant: oszust klonuje głos syna, córki lub wnuka i dzwoni do rodzica lub dziadka z historią o wypadku, aresztowaniu, nagłym długu. Emocje i stres wyłączają krytyczne myślenie - ofiara przelewa pieniądze lub wydaje je kurierowi.

To cyfrowa wersja metody „na wnuczka", o której piszemy szerzej w artykule o ochronie seniorów przed telefonicznymi oszustwami. Dodanie prawdziwego głosu wnuka do scenariusza drastycznie zwiększa skuteczność ataku.

Scenariusz 2 - Klonowanie głosu przełożonego (atak CEO Fraud)

Pracownik działu finansowego odbiera telefon od „prezesa" lub „dyrektora finansowego" z pilną prośbą o przelew. Głos jest przekonujący - bo to sklonowany głos prawdziwej osoby. Jeden taki incydent kosztował firmę 25 milionów dolarów (Hongkong, 2024) - oszuści przeprowadzili całą wideokonferencję z deepfake'ami uczestników.

Scenariusz 3 - Vishing bankowy z AI

Dzwoni „konsultant bezpieczeństwa banku" - głos brzmi profesjonalnie i spokojnie. Informuje o podejrzanej transakcji i prosi o potwierdzenie danych. Rozmowa jest płynna, bez akcentu, bez wahań. Ofiara nie ma powodów do podejrzeń.

Scenariusz 4 - Manipulacja SMS + call

Najpierw fałszywy SMS, potem telefon jako „potwierdzenie". Wielokanałowe ataki (SMS + rozmowa + e-mail) są trudniejsze do rozpoznania, bo każdy element wydaje się potwierdzać inny.

Jak rozpoznać deepfake głosowy?

Technologia rozwija się szybko i detektory nie nadążają, ale wciąż są sygnały ostrzegawcze:

  • Zbyt „czyste" brzmienie - brak naturalnych szumów tła, charakterystycznych dla prawdziwej rozmowy
  • Brak emocji lub monotonia - AI dobrze radzi sobie z neutralnym tonem, gorzej z emocjami
  • Opóźnienia i zacinanie się - przy generowaniu mowy w czasie rzeczywistym mogą pojawić się chwilowe przerwy
  • Dziwny kontekst połączenia - bliski, który normalnie pisze SMS, nagle dzwoni z nowego numeru i od razu prosi o pieniądze
  • Unikanie pytań szczegółowych - AI może mieć problem z improwizacją przy nieoczekiwanych pytaniach osobistych

Jak się chronić - praktyczne metody

1. Ustal słowo-kod z rodziną

Najprostsze i najskuteczniejsze zabezpieczenie: uzgodnij z bliskimi jedno tajne słowo lub pytanie, którego odpowiedzi nie można znaleźć w internecie. Jeśli ktokolwiek dzwoni z prośbą o pieniądze i nie zna kodu - to oszust. Nie ważne jak brzmi jego głos.

2. Zadzwoń na znany numer

Jeśli „syn" dzwoni z nieznanego numeru z historią o wypadku - rozłącz się i zadzwoń na jego prawdziwy numer. Zawsze. Bez wyjątków. To zajmuje 30 sekund i całkowicie eliminuje ryzyko.

3. Zadaj pytanie prywatne

Zapytaj o coś, czego AI nie może wiedzieć z publicznych źródeł: imię zwierzęcia, ostatnie wspólne wakacje, żart z rodzinnego spotkania. Klonowanie głosu odtwarza brzmienie, ale nie wiedzę rozmówcy.

4. Ogranicz publiczne nagrania głosu

Przemyśl ilość publicznych materiałów z twoim głosem w sieci. TikToki, podcasty, Instastories - to zbiór próbek dla potencjalnego atakującego. Nie musisz znikać z internetu, ale warto mieć świadomość tego ryzyka.

5. Weryfikuj wielokanałowo

Jakakolwiek pilna prośba o pieniądze przez telefon - zawsze weryfikuj innym kanałem. Telefon → SMS, telefon → aplikacja, telefon → osobista rozmowa.

Deepfake głosowy a prawo w Polsce

Polskie prawo nie ma jeszcze specyficznych przepisów dotyczących deepfake'ów. W przypadku wyłudzenia stosuje się art. 286 §1 KK (oszustwo) - kara do 8 lat pozbawienia wolności. Art. 190a §2 KK (podszywanie się pod inną osobę) może mieć zastosowanie przy klonowaniu głosu lub wizerunku w celu szkody.

Technologia wyprzedza prawo - trwają prace nad implementacją unijnych regulacji dotyczących AI (AI Act), które mają objąć m.in. deepfake'i. Pełne wdrożenie przepisów planowane jest do 2027 roku.

Podsumowanie

Vishing z klonowaniem głosu AI to nie futurystyczne zagrożenie - to rzeczywistość 2025 roku. Klonowanie głosu jest tanie, szybkie i dostępne dla każdego oszusta z internetem. Jedyną skuteczną ochroną jest procedura weryfikacji, której nie da się pokonać technologią: tajne słowo-kod z bliskimi i żelazna zasada dzwonienia na znane numery przed przekazaniem jakichkolwiek pieniędzy.