Создать AI-блогера
← Все гайды
СреднийГайд5 июня 20267 мин чтения

Lipsync Studio + Speak v2: текст в эмоциональное выступление AI-модели

Higgsfield Lipsync Studio и Speak v2: превращаем текст в выступление с губами, эмоциями и режиссёрскими ремарками. Робо-голос больше не выдаёт AI.

Lipsync Studio + Speak v2: текст в эмоциональное выступление AI-модели

Привет, на связи Илья.

Главная причина, по которой даже самые красивые AI-Reels не залетают, - голос. Картинка может быть кинематографичной, лицо стабильным, монтаж дорогим, но как только персонаж открывает рот и начинается то самое «здравствуйте-дорогие-друзья-сегодня-мы-поговорим» с интонацией навигатора 2010 года, зритель пролистывает. Робо-голос убивает доверие, потому что с первой секунды слышно, что это нейронка.

Раньше я обходил эту проблему просто: озвучивал сам или нанимал диктора. Дорого, долго, не масштабируется. А потом Higgsfield выкатили Lipsync Studio с моделью Speak v2 - первый инструмент, в котором AI-голос звучит живо: с паузами, смешками, шёпотом, эмоцией. И, что главное, с управлением через текст. Никаких эквалайзеров и интонационных кривых - пишешь скрипт по правилам и получаешь готовое выступление.

Сегодня разбираю, как этим пользоваться.

Lipsync Studio в Higgsfield - скрипт превращается в выступление AI-модели

Что такое Lipsync Studio

Lipsync Studio - это отдельный раздел внутри Higgsfield, где собраны 6 моделей для синхронизации губ и генерации голоса. По сути это «студия озвучки», в которой ты:

  1. Пишешь скрипт (или загружаешь готовое аудио).
  2. Загружаешь фото персонажа или готовое видео.
  3. Получаешь ролик, где AI-модель говорит твой текст, попадая в губы и в эмоцию.

Раньше всё это собиралось из трёх разных сервисов: текст в одном, голос во втором, lipsync в третьем. Higgsfield склеили в одну кнопку - и добавили самое главное: управление эмоцией через форматирование текста. Об этом ниже.

6 моделей внутри: когда какую выбирать

В Lipsync Studio под капотом крутится 6 движков. Выглядит как зоопарк, но на практике делятся на 3 группы.

Группа 1 - генерация голоса из текста:

  • Speak v2 - главная звезда. Превращает скрипт в аудио, понимая КАПС, паузы и ремарки в квадратных скобках. Это то, ради чего вообще стоит идти в Lipsync Studio.

Группа 2 - фото + аудио → говорящий персонаж (в скобках i2v значит image-to-video, «из картинки в видео»):

  • Kling AI Avatar (i2v) - берёт одну фотку и аудио, выдаёт длинный ролик с говорящим персонажем. Лучший выбор для «AI-модель записывает обращение на камеру».
  • InfiniteTalk (i2v) - для длинных дубляжей. Синхронизирует не только губы, но и голову, тело, мимику. Подходит для подкаст-нарезок и длинных монологов.
  • Veo 3 / Veo 3 fast (i2v) - добавляет кинематографичное движение камеры, когда хочется не статичную говорящую голову, а кадр с динамикой.

Группа 3 - замена речи в готовом видео (v2v значит video-to-video, «из видео в видео»):

  • lipsync-2 (v2v) - заливаешь готовое видео (своё или AI-генеренное), меняешь дорожку, и губы пересобираются под новый текст. Главный сценарий - дубляж на другой язык без пересъёмки.
  • Kling Lipsync - то же самое, но с упором на покадровую точность синхронизации, когда нужно идеально попасть в каждый слог.

Моё правило: если делаю свежий ролик «с нуля» - Kling AI Avatar + Speak v2. Если переозвучиваю готовое видео (например, перевожу русский Reel на английский) - lipsync-2. Если хочется кино - Veo 3.

Kling AI Avatar - говорящий аватар из одной фотографии и аудио

Магия Speak v2: форматирование скрипта

Вот здесь начинается то, ради чего этот гайд написан. Speak v2 - первая модель, в которой обычными символами в тексте ты управляешь интонацией. Без пресетов, без слайдеров.

Три правила, которые надо выучить:

Правило 1. КАПС = эмфаза

Слово или фраза заглавными буквами проговаривается с нажимом. Как будто ты выделил его голосом.

Плохо: «Это работает быстрее в 10 раз»

Хорошо: «Это работает быстрее в 10 РАЗ»

Speak v2 услышит акцент именно на «РАЗ» и поднимет на нём интонацию. Подходит для продающих фраз, где нужно подсветить цифру или ключевое слово.

Правило 2. ... = пауза

Троеточие - это длинная, осмысленная пауза в речи - та самая, которой не хватает 90% AI-голосов.

«Я думала, что у меня не получится... Но потом я попробовала ещё раз»

Speak v2 сделает между «получится» и «но» настоящую драматическую паузу, и зритель успеет вдохнуть. Это и есть разница между «нейронка читает» и «человек говорит».

Правило 3. [в квадратных скобках] = режиссура

Квадратные скобки - это ремарки для актёра. Эмоция, манера, акцент, физическое действие. Всё, что обычно режиссёр шепчет на ухо перед дублем.

Что туда можно писать:

  • [whispering] - шёпот
  • [laughs] / [laughs softly] - смех / лёгкий смешок
  • [sighs] - вздох
  • [calm tone] - спокойный тон
  • [excited] - возбуждённо
  • [French accent] - с французским акцентом

Полный пример скрипта

Вот как выглядит настоящий рабочий скрипт для Speak v2 (это пример из официальной документации Higgsfield, я просто адаптировал):

[calm tone] Окей... Слушай внимательно.
Я пробовала ВСЕ генераторы видео.
Runway, Sora, Pika - всё.
...
[laughs softly] А потом я нашла ЭТО.
[whispering] И теперь не могу остановиться.

Прочти вслух и почувствуй, как сами собой расставляются паузы и интонация. Speak v2 делает то же самое - только голосом AI-модели, с её тембром.

Диалог двух персонажей в одном промпте

Самый кайфовый режим - диалоги. В одном скрипте ты прописываешь несколько персонажей, и Speak v2 выдаёт каждому свой голос автоматически.

Формат - имя через двоеточие:

Sam: Ты пробовал Speak 2.0?
Alex: Да. [whispers] Это нереально.
Sam: Докажи.
Alex: [French accent] Такова жизнь, мой друг.

На выходе получаешь два разных голоса в одном аудиофайле. Сэм - обычным голосом, Алекс - сначала шёпотом, потом с французским акцентом. В одном промпте, без двух отдельных генераций.

Это открывает целый жанр контента: мини-скетчи, интервью «двух AI-моделей», диалоги «я и мой коуч», подкаст-врезки. У меня один ученик собирает на этом весь канал - формат «бабушка и внучка обсуждают AI», 40k подписчиков за 3 месяца.

WAN 2.5 - движок видео под капотом Higgsfield

Требования к референс-фото

Speak v2 даёт голос, но чтобы губы шевелились, нужен визуальный носитель. Чаще всего это фото, которое скармливается в Kling AI Avatar.

Три правила к фотографии:

  1. Крупный план. Лицо занимает большую часть кадра. Не «модель на фоне моря в полный рост», а портрет - от груди до макушки.
  2. Лицо в камеру. Лицо смотрит прямо в камеру. Профиль и три четверти модель плохо обрабатывает - губы «плывут».
  3. Хороший свет. Свет ровный, без жёстких теней на лице. Тени на губах = lipsync ломается.

Если делаешь дубляж видео (lipsync-2 / Kling Lipsync) - правило одно: губы должны быть видны на исходнике. Если человек в кадре отворачивается, закрывает рот рукой или говорит из-за плеча - модель не справится.

Как я использую это в работе

Мой стандартный рабочий цикл «Reel за час» сейчас выглядит так:

  1. Пишу скрипт в Claude - он сразу расставляет КАПС, троеточия и ремарки по моему запросу («сделай как будто я рассказываю подруге шёпотом»).
  2. Беру портретное фото своей AI-модели из Soul ID (крупный план).
  3. Иду в Lipsync Studio → Kling AI Avatar.
  4. Загружаю фото, вставляю скрипт, выбираю голос.
  5. Жду 2-3 минуты.

На выходе получаешь Reel с живой эмоциональной речью. Я слил несколько таких роликов в TG-канал на тесте, и в комментариях посыпалось «Илья, это уже точно человек, не AI?». Это и есть та цель, к которой мы идём.

Где это всё стыкуется

Lipsync Studio - это третий слой после стабильного лица (Soul ID) и красивой картинки (Soul 2.0). Без первых двух Speak v2 бесполезен - некому говорить. Но без Speak v2 даже лучшая AI-модель остаётся немой картинкой.

Полная связка «лицо → образ → голос → движение → монтаж» - это и есть программа VOSS, которую я веду. 13 уроков по всему стеку, разборы учеников, шаблоны промптов. Если хочешь системно - посмотри тарифы.

Что дальше

Speak v2 - самый недооценённый инструмент Higgsfield на сегодня. Пока все восторгаются картинкой, голос остаётся узким местом у 95% AI-блогеров. Тот, кто разберётся с форматированием скрипта сейчас, через 3 месяца будет выпускать контент, который не отличить от живого. А кто продолжит лепить робо-голоса - будет терять подписчиков на первой секунде.

Возьми любой свой пост, перепиши его по правилам Speak v2 - с КАПСом, троеточиями и ремарками - и прогони через Lipsync Studio. Это займёт час. Результат увидишь сразу.

Все рабочие схемы 2026 года я выкладываю в TG-канале «Будни ИИ-продюсера» - каждый понедельник свежий промт, каждый четверг кейс ученика.

Переходи: t.me/+-AnHPGn9lZYwYWJk

🎯 Куда идти дальше?

Два разных пути — выбери свой

Гайды на этой странице — про инструменты. Когда захочешь идти в результат — у меня есть два обучения под разные цели.

VOSS · 50€

AI-блогер для Instagram, TikTok и YouTube

Ведёшь обычные соцсети с AI-моделью — без своего лица в кадре, без съёмок. Подходит экспертам, бизнесу и тем кто хочет доп. доход через контент.

  • За выходные собираешь первого AI-блогера
  • Готовые промты и шаблоны — копируй и вставляй
  • Партнёрка с моим продуктом если нет своего

Реальные кейсы учеников VOSS

💎 Артём, 27 — $1 200+ за 3 недели, помог 100+ людям
💎 Данияр — $596 + 2 Reels по 50К просмотров
💎 Маша — $496.82 после недели сомнений

Узнать программу VOSS
AI Influencer · от 500€

AI-модель для премиум-монетизации

Полноценная AI-модель с собственным брендом, продвинутый стек и работа с платными платформами. Через моё основное обучение прошло уже 450+ человек.

  • Создание AI-модели от лица до полного образа
  • Чаттинг, автоматизация, AI-агенты
  • Полный цикл: от создания до монетизации на Fanvue

Проверено на масштабе

👥 450+ выпускников прошли обучение
💼 Ученики выходят на $1k–3k+/мес через Fanvue
🎓 Постоянно обновляется — все новые связки нейросетей внутри

Узнать про основное

Не уверен куда идти? Начни с гайдов ниже — они полезны для обеих ниш 👇

💎 Реальные результаты учеников основного

Сколько зарабатывают мои ученики

Реальные скриншоты с платформы Fanvue. Это не «средняя температура по палате» - это конкретные ученики, через которых прошло обучение.

Сколько ОДИН фанат тратит на ОДНУ AI-модель →

Скриншот доходов ученика AI Influencer #1
Скриншот доходов ученика AI Influencer #2
Скриншот доходов ученика AI Influencer #3
Скриншот доходов ученика AI Influencer #4
Скриншот доходов ученика AI Influencer #5
Скриншот доходов ученика AI Influencer #6
Скриншот доходов ученика AI Influencer #7
Скриншот доходов ученика AI Influencer #8
Скриншот доходов ученика AI Influencer #9
Скриншот доходов ученика AI Influencer #10
Скриншот доходов ученика AI Influencer #11
Скриншот доходов ученика AI Influencer #12
Скриншот доходов ученика AI Influencer #13
Скриншот доходов ученика AI Influencer #14
Скриншот доходов ученика AI Influencer #15
Скриншот доходов ученика AI Influencer #16

← Листай, чтобы посмотреть больше скриншотов →

Хочу ещё раз огромное спасибо сказать. Вот с Ваней вспоминали как нашу первую модель продвигали - это капец как тяжко было, делали не то. Чисто по 200-400 просмотров вечно было. А сейчас у нас каждый рилс на 500K-1.5 млн просмотров чисто благодаря тебе, брат!

- Ученик · $5,1K за 30 дней

Илья, спасибо тебе за курс. Во-первых, заработал денег. Во-вторых, что намного важнее - это дал понимание работы нейросетей. Расширился кругозор. Теперь у меня есть чёткое видение к чему идти, потому что я точно знаю - это очень прибыльно, очень интересно, очень творчески и очень масштабно. Спасибо 🙏

- Ученик с заработком $49 670+

Очень рад что всё получилось 🙏 Ещё другу рассказал, можешь ему скидку сделать на обучение?

- Ученик · $180 за первый час подписки на модель

Привет, в Барселоне живу. Спасибо тебе за курс, нашёл своё направление. У меня расширился кругозор, теперь готовлю проекты масштабнее и интереснее - всё с помощью AI-инфлюенсеров. Делаю всё на серверах, обучаю свои нейросети без цензуры.

- Ученик из Барселоны

Через основное обучение AI Influencer прошло 450+ человек. Программа обновляется каждый месяц.

Узнать про основное обучение

Без давления. Просто посмотри что внутри.