
Клонирование голоса – это уже не имитация, а вполне рабочая технология, которая позволяет нейросети воспроизвести чей-либо голос и произнести им любой текст на уровне профессионального диктора. Современные системы справляются с задачей, имея на входе всего несколько секунд аудио. Но не все, и далеко не одинаково качественно. Сегодня мы расскажем как клонировать любой голос: от Леонардо Ди Каприо до Алисы. И начнем, пожалуй, с выбора хорошего сервиса.
В каком сервисе лучше клонировать голос?
Сегодня в Сети много приложений, ботов и сайтов, позволяющих клонировать голоса, но самым современным, на мой взгляд, является ElevenLabs. Основная проблема заключается в том, что эта нейронка недоступна в нашей локации. Но это решаемо. Рассмотрим все варианты.
⭐ iVoxStudio – сайт на движке ElevenLabs, работающий без смены IP и доступной оплатой. У разработчиков также есть свой бот в Telegram и в Max. Клонировать голос в ИИ прямо сейчас.
⭐ ElevenLabs – если по какой-то причине Вы хотите полностью контролировать весь процесс, Вам придется зарегистрировать виртуальную карту иностранного банка для покупки платного тарифа и сменить IP. Попробовать сейчас.
Как проще всего клонировать голос онлайн?
Независимо от выбора нейросети, в самом начале необходимо сделать качественный референс голоса? Как его получить?
Напишите в поиске: «извлечь звук из видео в YouTube». На первой же странице Вы увидите множество сайтов, которые позволяют вытащить звук по ссылке. Выбираем хорошее видео с качественным звуком, загружаем и вытягиваем файл в mp3.
Теперь рассмотрим пример клонирования в iVoxStudio, потому что это быстрее. Не нужно менять IP и зарегистрировать виртуальную карту!
Вытягиваем звук
Имея на руках исходный звук голоса, мы теперь можем его копировать. В iVoxStudio это делается за 1 минуту, а в ElevenLabs придется разобраться с режимами и потратить чуть больше времени. Пойдем по быстрому пути, ведь это проще, и не нужно менять IP и использовать виртуальную карту для пополнения.
Шаг 1. Создаем новый голос
И так, на первом этапе нам нужно зарегистрироваться через любой доступный токен или создать новый пароль и ввести адрес электронной почты. Далее, выбираем «Создать голос» на странице клонирования голосов онлайн.

Шаг 2. Загружаем свой файл
На втором этапе создания клона голоса необходимо загрузить файл в любом из форматов, представленных в скриншоте. Важно, чтобы ваша аудиозапись была длительностью от 60 секунд до 2 минут. В противном случае система отклонит Ваш запрос. Придумываем название и подтверждаем, что у нас есть согласие на использование голоса от владельца. Это правило ElevenLabs. В этом же окне Вы можете записать свой голос во второй вкладке.

Шаг 3. Создаем название и описание
Через несколько секунд, если система не выявила нарушения (есть база с голосами знаменитостей), Вы сможете использовать новый голос для озвучки текстов.

Переходим в TTS (обычный режим) и выбираем нужный голос (он автоматически появится). Можете поэкспериментировать с настройками, чтобы получить наибольшую схожесть. В моем случае настройки примитивные.

Чем отличается клонирование голоса в ElevenLabs?
Прежде всего, нам придется сменить IP и создать иностранную карту, так как прием платежей с нашего гео недоступен, а услугу платная. Далее, придется чуть больше времени потратить на настройку. В ElevenLabs есть два режима клонирования голоса:
Instant Voice Clone (IVC) — загружаете образец, сразу получаете голос. Доступен на любом платном плане и даже бесплатно (с ограничениями). Дообучения нет, модель адаптируется на лету.
Professional Voice Clone (PVC) — более мощный инструмент. Доступен, начиная от плана Creator (от $22/мес). Качество заметно выше, особенно на длинных текстах и нестандартных интонациях. Однако и требования выше. Может сработать цензура на использование голосов знаменитостей.
Требования ElevenLabs к образцу для клонирования голоса
ElevenLabs официально говорит, что нужна минимум 1 минута, а оптимально от 3 минут (в режиме IVC). На практике:
Меньше минуты — клон будет «плавать» в интонациях.
3–5 минут — хороший результат для большинства задач.
Больше 10 минут для IVC уже не даёт прироста .
Формат: MP3 или WAV, не важно. ElevenLabs сам конвертирует. Но WAV из оригинала всегда лучше, чем MP3 из видео.
Для профессионального режима ElevenLabs даёт следующие инструкции в интерфейсе при создании клона. Они просят:
От 30 минут аудио (можно загрузить несколькими файлами).
Чистая речь без музыки и фоновых шумов.
Разнообразие интонаций и темпа.
Один и тот же микрофон и помещение во всех файлах — модель иначе «смешает» акустику.
Если у вас есть YouTube видео, конвертируйте в MP3. Но качество будет ограничено тем, что закодировал YouTube (AAC 128kbps). Если есть исходный WAV со съёмки — загружайте его.
Настройки клона голоса после генерации
После создания клона в интерфейсе генерации есть три ползунка, которые сильно влияют на естественность:
Stability — стабильность голоса. Чем выше, тем монотоннее. Для живой речи ставьте 30–50%, для официальных текстов — 60–70%.
Similarity — насколько жёстко модель держится за исходный голос. Выше 80% начинаются артефакты. Оптимум — 70–75%.
Style exaggeration — усиление стиля речи из образца. Выше нуля добавляет экспрессии, но и нестабильности. Для нейтральной озвучки оставляйте 0.
Это общие рекомендации, но на практике многое зависит от исходника. Вы можете также брать советы у GPT по оптимизации, используя голос определенной знаменитости.
Важно! ElevenLabs запрещает использовать и копировать чужие голоса. У вас должно быть либо разрешение, либо Вы можете озвучить свой голос. Поэтому, работая с нейронками, используйте формулировки типа «голос, похожий на Леонардно Ди Каприо».
Что касается практики, то внутренний фильтр ElevenLabs почти никогда не срабатывает. Особенно в режиме Instant Voice Clone. Аналогичная ситуация просматривается и в сервисах, которые функционируют на движке этой нейросети для клонирования голосов.
Ответы на вопросы по клонированию голосов
Клонирование голоса онлайн часто сопровождается ошибками по вине пользователя, а не нейросети. Мы уже рассмотрели частые ошибки и рекомендации, а также отметили, насколько важна роль хорошего образца. Теперь рассмотрим другие вопросы, которые часто задают новички:
Можно ли клонировать голос бесплатно?
Да, ElevenLabs даёт бесплатный доступ к Instant Voice Clone, но Вы сможете только проверить, как работает клон, а использовать его платно не сможете. Если не хочется возиться со сменой IP и иностранной картой — есть сервисы на базе того же API. В частности, iVoxStudio работает в русскоязычной локации и дают аналогичный результат без лишних настроек. Кроме того, у них есть свой бот для клонирования голосов в Max.
Сколько нужно аудио чтобы клонировать голос?
ElevenLabs официально говорит, что хватит минуты, но на практике меньше трёх минут давать не стоит — клон будет плавать в интонациях и звучать нестабильно. Для большинства задач достаточно трёх-пяти минут чистой речи. Больше десяти минут для Instant Voice Clone уже не даёт прироста качества, это скорее «трата времени». Однако лучше записывать по 15-20 минут и выбрать потом плохие куски озвучки. Также хотелось бы добавить, что все субъективно. Профессиональным дикторам хватит 2-3 минут, чтобы идеально передать свой тембр и интонацию.
Что лучше загрузить — видео или аудиофайл?
Исходный аудиофайл всегда выигрывает. Когда берете звук из видео с YouTube, учтите, что он уже пережат кодеком до AAC 128kbps и часть информации о голосе просто потеряна. Если исходника нет совсем, то извлеките аудио из видео через любой онлайн-конвертер и загружай в MP3. ElevenLabs одинаково принимает и WAV и MP3.
В чём разница между Instant и Professional клоном?
Instant Voice Clone работает мгновенно — загрузил образец и через секунды получил голос. Он доступен даже на бесплатном плане (для тестов только). Professional Voice Clone это уже полноценное обучение модели на ваших данных, соответственно, качество заметно выше особенно на длинных текстах. Но нужно от тридцати минут записей и план от двадцати двух долларов в месяц. Плюс PVC может заблокировать голос знаменитости.
Как получить запись голоса знаменитости для клонирования?
Проще всего найти интервью или выступление на YouTube и вытащить звук через любой онлайн-сервис — в поиске просто пиши «извлечь звук из YouTube». Выбирайте видео, где человек говорит без музыки на фоне — чем чище звук, тем лучше клон. Идеально если в кадре нет других голосов и нет студийной обработки.
Почему клон голоса звучит роботом или с артефактами?
Чаще всего две причины. Первая в слабом образце. Короткая запись с шумом или музыкой на фоне. Модель учиться на всём, что слышит и фон просачивается в результат. Вторая в слишком высоком ползунке Similarity в настройках генерации. Выше восьмидесяти процентов начинаются металлические артефакты. Оптимальное значение семьдесят-семьдесят пять процентов.
Какие настройки выставить для естественного звучания?
В интерфейсе генерации есть три ползунка. Stability отвечает за монотонность — для живой речи (ставьте 30-35 процентов). Similarity держите в районе 70-75. Style exaggeration лучше оставить на нуле, если нужна нейтральная озвучка — выше нуля добавляет экспрессии, но вместе с ней и нестабильность. Поиграйте с первыми двумя ползунками и результат сразу улучшится.
Как клонировать свой голос для озвучки?
Запишись в тихом помещении на телефон или USB-микрофон. Важно, чтобы без эха и фоновых звуков. Читайте разный текст минут десять-пятнадцать, включая новости диалоги описания. Нужны разные интонации, а не монотонное чтение. Перед загрузкой убери шум через Audacity или Adobe Podcast Enhance — это бесплатно и занимает пару минут. Лучше один раз потратить 10-20 минут, и потом иметь готовый шаблон, не так ли?
Можно ли клонировать голос из короткого видео в 30 секунд?
Технически ElevenLabs примет такой файл и создаст голос, но качество будет посредственным. Тридцати секунд хватает, чтобы уловить тембр, но не хватает для стабильных интонаций и пауз. Если у вас только короткий клип, то попробуйте найти другие записи этого человека и склей несколько фрагментов в один файл. Даже три отдельных видео по минуте дадут результат лучше, чем одно на тридцать секунд. Исключения – это голоса ботов. Например, Алисы. Там все понятно с первых секунд.
Как работает клонирование голоса простыми словами?
Нейросеть слушает образец и раскладывает голос на составляющие. Внутри тембр, высота интонации, темп речи. Всё это сжимается в числовой отпечаток голоса. Когда вы потом пишите текст, модель берёт этот отпечаток и синтезирует аудио так, чтобы оно звучало как человек в образце. Примерно как если бы ты описал чей-то почерк математикой, а потом попросил написать этим почерком любое слово.



Начать дискуссию