Эмуляция работы в колл-центре банка с помощью AI (голосовой дипфейк)

Good Carder · May 30, 2026

Создание голосовой модели сотрудника на основе записей из соцсетей, обзвон клиентов для получения OTP и CVV, техника социальной инженерии 2.0.

От кардера — кардерам. Вы думаете, что двухфакторная аутентификация и биометрия — это надёжно? Что ж, попробуйте сказать это банку, который потерял миллион долларов из-за звонка фальшивого «клиента» с синтезированным голосом. В 2027 году голосовые дипфейки — это уже не лабораторные эксперименты, а оружие массового поражения. Любой оператор колл-центра, вооружённый скриптом, может обмануть банк, просто позвонив и представившись жертвой. Но что, если теперь и сам оператор может быть искусственным?

В этой статье я разберу технологию эмуляции работы в колл-центре банка с помощью AI. Вы узнаете, как создать голосовую модель любого человека, используя записи из социальных сетей, как обзванивать клиентов от имени банка, получая OTP-коды и CVV, как автоматизировать обзвон с помощью глубоких нейросетей и как не попасться на удочку систем распознавания мошенничества.

Часть 1. Почему голос — новое оружие

Колл-центры банков остаются самым слабым звеном. Операторы обучены вежливости, а не криптографии. Они не проверяют, откуда звонок, не анализируют голос на предмет дипфейка, они просто следуют скрипту. Если звонит «клиент» и называет свои паспортные данные, оператор сбросит 2FA-код или CVV.

Голосовая биометрия, которую банки внедряют для идентификации клиентов, основана на анализе уникальных характеристик голоса. Но что, если эти характеристики можно подделать? В 2027 году AI-синтез речи достиг такого уровня, что отличить реальный голос от сгенерированного практически невозможно. Голосовая аутентификация становится бесполезной, если у кардера есть 30 секунд записи голоса жертвы из её Instagram Stories.

Часть 2. Архитектура атаки: от записи голоса до успешного обмана

Полная схема атаки состоит из нескольких этапов. Каждый этап можно автоматизировать.

Этап 1. Сбор голосового материала. Нужны записи голоса жертвы. Источники: TikTok, Instagram Reels, YouTube, публичные выступления, голосовые сообщения в Telegram (если есть доступ к аккаунту). Достаточно 30–60 секунд чистой речи без фонового шума.

Этап 2. Генерация голосовой модели. Используем AI-модели для клонирования голоса (Voicemod, ElevenLabs, RVC, OpenVoice). На выходе — модель, способная синтезировать любые фразы голосом жертвы.

Этап 3. Создание скрипта разговора. Нужно заранее продумать, что будет говорить «жертва». Скрипт должен быть естественным, содержать паузы, слова-паразиты, чтобы не вызывать подозрений.

Этап 4. Автоматизация звонка. Используем VoIP-сервисы (Twilio, Asterisk) для программной инициации звонка. Голос воспроизводится через TTS-движок (синтез речи) или предварительно записанные фразы.

Этап 5. Обход систем распознавания. Чтобы звонок не был отмечен как мошеннический, подменяем caller ID (номер отправителя) на официальный номер банка. Также добавляем естественный фоновый шум (улица, офис), чтобы имитировать реальную обстановку.

Часть 3. Генерация голосовой модели: инструменты и техники

3.1. ElevenLabs (платный, качество 10/10)

Самый продвинутый сервис для клонирования голоса (voice cloning). Загружаете образец (минута речи), выбираете язык, и ИИ генерирует модель. ElevenLabs позволяет тонко настраивать эмоции, скорость речи, добавлять паузы. Есть API для интеграции с VoIP. Минус: платный, от $5 в месяц, но есть бесплатный тариф с ограничениями (10 000 символов в месяц).

3.2. RVC (Retrieval-based Voice Conversion) — open-source

Бесплатная альтернатива, требует мощного GPU. Вы тренируете модель на голосе жертвы. Процесс: собираете датасет (WAV-файлы, 16 kHz, моно), запускаете тренировку (от 1 до 12 часов). На выходе — модель, которую можно использовать для конвертации любого текста в голос. RVC популярен в сообществе deepfake-энтузиастов.

3.3. OpenVoice (от MyShell.ai) — мгновенное клонирование

OpenVoice позволяет клонировать голос по 10-секундному образцу с нулевой настройкой (zero-shot). Качество чуть ниже ElevenLabs, но процесс мгновенный. Идеально для экспресс-атак.

3.4. Coqui TTS — локальная альтернатива

Coqui TTS — open-source библиотека для синтеза речи. Можно обучить модель на своих данных. Требует больше усилий, но даёт полный контроль.

3.5. Как собрать качественный датасет

YouTube-dl скачивает видео с канала жертвы.
Audacity вырезает чистую речь, удаляет музыку, шум.
FFmpeg конвертирует в единый формат (16 kHz, 16-bit, mono).
Voice Activity Detection (VAD) — удаляет паузы, оставляя только моменты, где человек говорит.

Минимальный качественный датасет — 30 секунд чистой речи. Для идеального качества — 5–10 минут.

Часть 4. Автоматизация звонков: от скрипта до обзвона

4.1. VoIP-провайдеры

Twilio (USA) — API для звонков, можно задать caller ID (номер отправителя). Цена около $0.013 за минуту входящего звонка.
Nexmo (Vonage) — аналог.
Asterisk — самодельная IP-АТС для тех, кто не хочет платить. Требует настройки SIP-транка.

Подмена caller ID (спуфинг) — отображаемый номер подставляется через заголовок From. В США и Европе операторы блокируют спам, но для банковских номеров часто делают исключение (или кардеры пользуются уязвимостями протокола SS7).

4.2. Генерация естественной речи через TTS

Python:

import requests
import os

# ElevenLabs API
def generate_speech(text, voice_id, api_key):
    url = f"https://api.elevenlabs.io/v1/text-to-speech/{voice_id}"
    headers = {"xi-api-key": api_key, "Content-Type": "application/json"}
    data = {"text": text, "voice_settings": {"stability": 0.3, "similarity_boost": 0.8}}
    response = requests.post(url, json=data, headers=headers)
    with open("output.mp3", "wb") as f:
        f.write(response.content)

4.3. Программный звонок с воспроизведением аудио

Python:

from twilio.rest import Client

account_sid = "YOUR_SID"
auth_token = "YOUR_TOKEN"
client = Client(account_sid, auth_token)

call = client.calls.create(
    twiml='<Response><Say voice="alice">Добрый день, это служба безопасности банка. Вам звонят по подозрительной операции.</Say></Response>',
    to='+1234567890',
    from_='+1987654321'  # подставной номер
)

Альтернатива: загрузить предварительно сгенерированный MP3-файл с голосом жертвы (не текст, а именно дипфейк).

4.4. Диалоговый AI (автоматический ответ)

Самый продвинутый уровень — когда искусственный интеллект не только говорит голосом жертвы, но и отвечает на вопросы оператора. Используется связка: STT (преобразование речи в текст, например, Whisper) → LLM (генерирует ответ) → TTS (озвучивает голосом жертвы). Такой бот может вести полноценный разговор, не вызывая подозрений.

Python:

import openai
import whisper

model = whisper.load_model("base")
result = model.transcribe("operator_speech.wav")
user_text = result["text"]

completion = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[{"role": "user", "content": f"Ты — клиент банка по имени Иван. Ответь на вопрос оператора: {user_text}"}]
)

response_text = completion.choices[0].message.content
# Далее response_text отправляется в TTS

Часть 5. Реальные кейсы и сценарии атак

5.1. Получение OTP-кода (одноразового пароля)

Звонит «клиент» в банк: «Здравствуйте, я не могу войти в приложение, заблокирован счёт. Назовите, пожалуйста, код, который пришёл мне на телефон». Оператор, пройдя базовую верификацию (названы паспортные данные, которые уже были украдены), диктует OTP-код. Кардеры тут же использует его для входа в онлайн-банк. В 2025 году зафиксирована массовая кампания, где кардеры использовали deepfake-звонки для обхода 2FA в криптобиржах.

Сценарий от первого лица:
«Я звоню в банк. Голос — клип 30 секунд из YouTube. Скрипт: представляюсь Петровым Иваном, называю паспорт (взят из утечки), прошу код для входа в приложение, так как «новый телефон». Оператор скидывает код. Я ввожу его в приложение — аккаунт мой. Через час деньги на карте переведены на дроп-счёт».

5.2. Социальная инженерия 2.0: обзвон клиентов от имени банка

Здесь роль меняется. Вы не клиент, а «сотрудник службы безопасности». Звоните жертве, представляетесь, объясняете, что была подозрительная попытка входа, для отмены операции нужен код из SMS. Жертва диктует код — вы входите в её аккаунт. В 2026 году Group-IB зафиксировала рост таких атак на 400% в странах СНГ.

Техника:

AI генерирует голос «сотрудника» на основе голоса настоящего сотрудника банка (образцы можно найти в интервью, корпоративных видео).
Спуфинг номера: на телефоне жертвы отображается официальный номер банка.

5.3. Deepfake начальника колл-центра

В 2026 году в Великобритании зафиксирован случай, когда мошенник использовал голосовой deepfake генерального директора компании, чтобы убедить сотрудника перевести $243 000 на подставной счёт. Схема: поддельное письмо от директора, затем срочный звонок с просьбой перевести средства до конца дня. Применительно к колл-центру: звонок оператору от «директора банка» с требованием выдать код доступа VIP-клиенту.

Суть: операторы обучены подчиняться начальству. Если звонящий голос похож на руководителя, они нарушат протокол.

5.4. Автоматизированный обзвон баз (DeepCall)

Вы покупаете базу телефонных номеров (утечки, даркнет). Скрипт на Python обзванивает все номера, синтезируя речь голосом жертвы. Каждому звонку соответствует свой контекст (например, «Здравствуйте, ваш заказ №…»). Успешность низкая (0.1–1%), но с охватом в 1 млн номеров — это 1 000 успешных атак.

Python:

def attack_loop(numbers):
    for number in numbers:
        voice_model = load_voice_model(number)  # загрузка модели по номеру телефона из базы
        script = generate_script(number)        # персонализация через OSINT
        call(number, voice_model, script)
        time.sleep(random.randint(60, 300))    # пауза между звонками

Часть 6. Защита (и как её обходить)

Банки не спят. Они внедряют:

Голосовую биометрию (voice verification). Система анализирует уникальные характеристики голоса. Чтобы обойти, нужно использовать генеративную модель, обученную именно на голосе жертвы. В 2027 году это почти всегда срабатывает, но некоторые банки используют liveness detection (просьба произнести случайную фразу). Бот должен уметь синтезировать любую фразу.
Анализ фонового шума. Если звонок из тишины, а клиент всегда звонил из шумного офиса — красный флаг. Добавляем реалистичный шум (офис, улица) через аудиоредактор.
Поведенческий анализ. Как быстро отвечает клиент? Как строит фразы? Используем LLM для имитации человеческих задержек и слов-паразитов.
Перекрёстная проверка. Например, одновременно отправляется push-уведомление в приложение. Если клиент не может подтвердить, звонок считается мошенническим. Это непреодолимо, если у вас нет доступа к приложению жертвы.
Верификация через другой канал. Банк может перезвонить клиенту на зарегистрированный номер для подтверждения. Это ломает атаку, если вы звоните от имени жертвы. Решение: не давайте оператору повода перезванивать — решайте всё в одном звонке.

Часть 7. OPSEC и чек-лист кардера

Сбор голоса. Не используйте записи с явными признаками монтажа. Лучший источник — прямые эфиры в соцсетях.
Генерация модели. ElevenLabs — самый простой, RVC — бесплатный, но сложный. Всегда тестируйте модель на фразу, которой нет в обучающем наборе.
Подмена номера. Используйте VoIP-провайдеров, которые не блокируют спуфинг (регистрация в офшорных юрисдикциях).
Скрипт разговора. Пишите естественно, с паузами, вопросами оператору, сомнениями. Не будьте роботом.
Звонки. Не обзванивайте одного оператора несколько раз подряд. Используйте базу номеров банковских колл-центров.
Маскировка. Звоните через прокси в стране банка, чтобы caller ID совпадал с регионом жертвы.
Уничтожение следов. После успешного звонка удалите логи с VPS, смените VoIP-аккаунт, уничтожьте голосовую модель.

Резюме

Голосовой дипфейк — это уже не технология будущего, а рабочий инструмент 2027 года. С помощью AI-клонов можно обмануть колл-центр банка, получить OTP-код, CVV, доступ к аккаунту. Главное — собрать достаточно голосового материала, правильно синтезировать речь и добавить человеческих «несовершенств». Банки вооружены голосовой биометрией, но против хорошо обученной модели она бессильна. В 2027 году война перешла на сторону генеративных нейросетей.

Быстрая памятка на одну строку:
«30 секунд голоса из TikTok — и ты любой человек. ElevenLabs клонирует речь, Twilio звонит, Whisper переводит голос в текст, GPT ведёт диалог. OTP-код у тебя в кармане. Банковская голосовая биометрия — очередной миф»

Эмуляция работы в колл-центре банка с помощью AI (голосовой дипфейк)

Good Carder

Professional

Создание голосовой модели сотрудника на основе записей из соцсетей, обзвон клиентов для получения OTP и CVV, техника социальной инженерии 2.0.

Часть 1. Почему голос — новое оружие

Часть 2. Архитектура атаки: от записи голоса до успешного обмана

Часть 3. Генерация голосовой модели: инструменты и техники

3.1. ElevenLabs (платный, качество 10/10)

3.2. RVC (Retrieval-based Voice Conversion) — open-source

3.3. OpenVoice (от MyShell.ai) — мгновенное клонирование

3.4. Coqui TTS — локальная альтернатива

3.5. Как собрать качественный датасет

Часть 4. Автоматизация звонков: от скрипта до обзвона

4.1. VoIP-провайдеры

4.2. Генерация естественной речи через TTS

4.3. Программный звонок с воспроизведением аудио

4.4. Диалоговый AI (автоматический ответ)

Часть 5. Реальные кейсы и сценарии атак

5.1. Получение OTP-кода (одноразового пароля)

5.2. Социальная инженерия 2.0: обзвон клиентов от имени банка

5.3. Deepfake начальника колл-центра

5.4. Автоматизированный обзвон баз (DeepCall)

Часть 6. Защита (и как её обходить)

Часть 7. OPSEC и чек-лист кардера

Резюме

Similar threads

Эмуляция работы в колл-центре банка с помощью AI (голосовой дипфейк)

Good Carder

Professional

Создание голосовой модели сотрудника на основе записей из соцсетей, обзвон клиентов для получения OTP и CVV, техника социальной инженерии 2.0.​

Часть 1. Почему голос — новое оружие​

Часть 2. Архитектура атаки: от записи голоса до успешного обмана​

Часть 3. Генерация голосовой модели: инструменты и техники​

3.1. ElevenLabs (платный, качество 10/10)​

3.2. RVC (Retrieval-based Voice Conversion) — open-source​

3.3. OpenVoice (от MyShell.ai) — мгновенное клонирование​

3.4. Coqui TTS — локальная альтернатива​

3.5. Как собрать качественный датасет​

Часть 4. Автоматизация звонков: от скрипта до обзвона​

4.1. VoIP-провайдеры​

4.2. Генерация естественной речи через TTS​

4.3. Программный звонок с воспроизведением аудио​

4.4. Диалоговый AI (автоматический ответ)​

Часть 5. Реальные кейсы и сценарии атак​

5.1. Получение OTP-кода (одноразового пароля)​

5.2. Социальная инженерия 2.0: обзвон клиентов от имени банка​

5.3. Deepfake начальника колл-центра​

5.4. Автоматизированный обзвон баз (DeepCall)​

Часть 6. Защита (и как её обходить)​

Часть 7. OPSEC и чек-лист кардера​

Резюме​

Similar threads

Создание голосовой модели сотрудника на основе записей из соцсетей, обзвон клиентов для получения OTP и CVV, техника социальной инженерии 2.0.

Часть 1. Почему голос — новое оружие

Часть 2. Архитектура атаки: от записи голоса до успешного обмана

Часть 3. Генерация голосовой модели: инструменты и техники

3.1. ElevenLabs (платный, качество 10/10)

3.2. RVC (Retrieval-based Voice Conversion) — open-source

3.3. OpenVoice (от MyShell.ai) — мгновенное клонирование

3.4. Coqui TTS — локальная альтернатива

3.5. Как собрать качественный датасет

Часть 4. Автоматизация звонков: от скрипта до обзвона

4.1. VoIP-провайдеры

4.2. Генерация естественной речи через TTS

4.3. Программный звонок с воспроизведением аудио

4.4. Диалоговый AI (автоматический ответ)

Часть 5. Реальные кейсы и сценарии атак

5.1. Получение OTP-кода (одноразового пароля)

5.2. Социальная инженерия 2.0: обзвон клиентов от имени банка

5.3. Deepfake начальника колл-центра

5.4. Автоматизированный обзвон баз (DeepCall)

Часть 6. Защита (и как её обходить)

Часть 7. OPSEC и чек-лист кардера

Резюме