Lipsync Studio + Speak v2: текст в эмоциональное выступление AI-модели

Привет, на связи Илья.

Главная причина, по которой даже самые красивые AI-Reels не залетают, - голос. Картинка может быть кинематографичной, лицо стабильным, монтаж дорогим, но как только персонаж открывает рот и начинается то самое «здравствуйте-дорогие-друзья-сегодня-мы-поговорим» с интонацией навигатора 2010 года, зритель пролистывает. Робо-голос убивает доверие, потому что с первой секунды слышно, что это нейронка.

Раньше я обходил эту проблему просто: озвучивал сам или нанимал диктора. Дорого, долго, не масштабируется. А потом Higgsfield выкатили Lipsync Studio с моделью Speak v2 - первый инструмент, в котором AI-голос звучит живо: с паузами, смешками, шёпотом, эмоцией. И, что главное, с управлением через текст. Никаких эквалайзеров и интонационных кривых - пишешь скрипт по правилам и получаешь готовое выступление.

Сегодня разбираю, как этим пользоваться.

Lipsync Studio в Higgsfield - скрипт превращается в выступление AI-модели

Что такое Lipsync Studio

Lipsync Studio - это отдельный раздел внутри Higgsfield, где собраны 6 моделей для синхронизации губ и генерации голоса. По сути это «студия озвучки», в которой ты:

Пишешь скрипт (или загружаешь готовое аудио).
Загружаешь фото персонажа или готовое видео.
Получаешь ролик, где AI-модель говорит твой текст, попадая в губы и в эмоцию.

Раньше всё это собиралось из трёх разных сервисов: текст в одном, голос во втором, lipsync в третьем. Higgsfield склеили в одну кнопку - и добавили самое главное: управление эмоцией через форматирование текста. Об этом ниже.

6 моделей внутри: когда какую выбирать

В Lipsync Studio под капотом крутится 6 движков. Выглядит как зоопарк, но на практике делятся на 3 группы.

Группа 1 - генерация голоса из текста:

Speak v2 - главная звезда. Превращает скрипт в аудио, понимая КАПС, паузы и ремарки в квадратных скобках. Это то, ради чего вообще стоит идти в Lipsync Studio.

Группа 2 - фото + аудио → говорящий персонаж (в скобках i2v значит image-to-video, «из картинки в видео»):

Kling AI Avatar (i2v) - берёт одну фотку и аудио, выдаёт длинный ролик с говорящим персонажем. Лучший выбор для «AI-модель записывает обращение на камеру».
InfiniteTalk (i2v) - для длинных дубляжей. Синхронизирует не только губы, но и голову, тело, мимику. Подходит для подкаст-нарезок и длинных монологов.
Veo 3 / Veo 3 fast (i2v) - добавляет кинематографичное движение камеры, когда хочется не статичную говорящую голову, а кадр с динамикой.

Группа 3 - замена речи в готовом видео (v2v значит video-to-video, «из видео в видео»):

lipsync-2 (v2v) - заливаешь готовое видео (своё или AI-генеренное), меняешь дорожку, и губы пересобираются под новый текст. Главный сценарий - дубляж на другой язык без пересъёмки.
Kling Lipsync - то же самое, но с упором на покадровую точность синхронизации, когда нужно идеально попасть в каждый слог.

Моё правило: если делаю свежий ролик «с нуля» - Kling AI Avatar + Speak v2. Если переозвучиваю готовое видео (например, перевожу русский Reel на английский) - lipsync-2. Если хочется кино - Veo 3.

Магия Speak v2: форматирование скрипта

Вот здесь начинается то, ради чего этот гайд написан. Speak v2 - первая модель, в которой обычными символами в тексте ты управляешь интонацией. Без пресетов, без слайдеров.

Три правила, которые надо выучить:

Правило 1. `КАПС` = эмфаза

Слово или фраза заглавными буквами проговаривается с нажимом. Как будто ты выделил его голосом.

Плохо: «Это работает быстрее в 10 раз»

Хорошо: «Это работает быстрее в 10 РАЗ»

Speak v2 услышит акцент именно на «РАЗ» и поднимет на нём интонацию. Подходит для продающих фраз, где нужно подсветить цифру или ключевое слово.

Правило 2. `...` = пауза

Троеточие - это длинная, осмысленная пауза в речи - та самая, которой не хватает 90% AI-голосов.

«Я думала, что у меня не получится... Но потом я попробовала ещё раз»

Speak v2 сделает между «получится» и «но» настоящую драматическую паузу, и зритель успеет вдохнуть. Это и есть разница между «нейронка читает» и «человек говорит».

Правило 3. `[в квадратных скобках]` = режиссура

Квадратные скобки - это ремарки для актёра. Эмоция, манера, акцент, физическое действие. Всё, что обычно режиссёр шепчет на ухо перед дублем.

Что туда можно писать:

[whispering] - шёпот
[laughs] / [laughs softly] - смех / лёгкий смешок
[sighs] - вздох
[calm tone] - спокойный тон
[excited] - возбуждённо
[French accent] - с французским акцентом

Полный пример скрипта

Вот как выглядит настоящий рабочий скрипт для Speak v2 (это пример из официальной документации Higgsfield, я просто адаптировал):

[calm tone] Окей... Слушай внимательно.
Я пробовала ВСЕ генераторы видео.
Runway, Sora, Pika - всё.
...
[laughs softly] А потом я нашла ЭТО.
[whispering] И теперь не могу остановиться.

Прочти вслух и почувствуй, как сами собой расставляются паузы и интонация. Speak v2 делает то же самое - только голосом AI-модели, с её тембром.

Диалог двух персонажей в одном промпте

Самый кайфовый режим - диалоги. В одном скрипте ты прописываешь несколько персонажей, и Speak v2 выдаёт каждому свой голос автоматически.

Формат - имя через двоеточие:

Sam: Ты пробовал Speak 2.0?
Alex: Да. [whispers] Это нереально.
Sam: Докажи.
Alex: [French accent] Такова жизнь, мой друг.

На выходе получаешь два разных голоса в одном аудиофайле. Сэм - обычным голосом, Алекс - сначала шёпотом, потом с французским акцентом. В одном промпте, без двух отдельных генераций.

Это открывает целый жанр контента: мини-скетчи, интервью «двух AI-моделей», диалоги «я и мой коуч», подкаст-врезки. У меня один ученик собирает на этом весь канал - формат «бабушка и внучка обсуждают AI», 40k подписчиков за 3 месяца.

WAN 2.5 - движок видео под капотом Higgsfield

Требования к референс-фото

Speak v2 даёт голос, но чтобы губы шевелились, нужен визуальный носитель. Чаще всего это фото, которое скармливается в Kling AI Avatar.

Три правила к фотографии:

Крупный план. Лицо занимает большую часть кадра. Не «модель на фоне моря в полный рост», а портрет - от груди до макушки.
Лицо в камеру. Лицо смотрит прямо в камеру. Профиль и три четверти модель плохо обрабатывает - губы «плывут».
Хороший свет. Свет ровный, без жёстких теней на лице. Тени на губах = lipsync ломается.

Если делаешь дубляж видео (lipsync-2 / Kling Lipsync) - правило одно: губы должны быть видны на исходнике. Если человек в кадре отворачивается, закрывает рот рукой или говорит из-за плеча - модель не справится.

Как я использую это в работе

Мой стандартный рабочий цикл «Reel за час» сейчас выглядит так:

Пишу скрипт в Claude - он сразу расставляет КАПС, троеточия и ремарки по моему запросу («сделай как будто я рассказываю подруге шёпотом»).
Беру портретное фото своей AI-модели из Soul ID (крупный план).
Иду в Lipsync Studio → Kling AI Avatar.
Загружаю фото, вставляю скрипт, выбираю голос.
Жду 2-3 минуты.

На выходе получаешь Reel с живой эмоциональной речью. Я слил несколько таких роликов в TG-канал на тесте, и в комментариях посыпалось «Илья, это уже точно человек, не AI?». Это и есть та цель, к которой мы идём.

Где это всё стыкуется

Lipsync Studio - это третий слой после стабильного лица (Soul ID) и красивой картинки (Soul 2.0). Без первых двух Speak v2 бесполезен - некому говорить. Но без Speak v2 даже лучшая AI-модель остаётся немой картинкой.

Полная связка «лицо → образ → голос → движение → монтаж» - это и есть программа VOSS, которую я веду. 13 уроков по всему стеку, разборы учеников, шаблоны промптов. Если хочешь системно - посмотри тарифы.

Что дальше

Speak v2 - самый недооценённый инструмент Higgsfield на сегодня. Пока все восторгаются картинкой, голос остаётся узким местом у 95% AI-блогеров. Тот, кто разберётся с форматированием скрипта сейчас, через 3 месяца будет выпускать контент, который не отличить от живого. А кто продолжит лепить робо-голоса - будет терять подписчиков на первой секунде.

Возьми любой свой пост, перепиши его по правилам Speak v2 - с КАПСом, троеточиями и ремарками - и прогони через Lipsync Studio. Это займёт час. Результат увидишь сразу.

Все рабочие схемы 2026 года я выкладываю в TG-канале «Будни ИИ-продюсера» - каждый понедельник свежий промт, каждый четверг кейс ученика.

Переходи: t.me/+-AnHPGn9lZYwYWJk

Lipsync Studio + Speak v2: текст в эмоциональное выступление AI-модели

Что такое Lipsync Studio

6 моделей внутри: когда какую выбирать

Магия Speak v2: форматирование скрипта

Правило 1. `КАПС` = эмфаза

Правило 2. `...` = пауза

Правило 3. `[в квадратных скобках]` = режиссура

Полный пример скрипта

Диалог двух персонажей в одном промпте

Требования к референс-фото

Как я использую это в работе

Где это всё стыкуется

Что дальше

Гайды — это инструменты. VOSS — это результат

AI-блогер для Instagram, TikTok и YouTube

Что такое Lipsync Studio

6 моделей внутри: когда какую выбирать

Магия Speak v2: форматирование скрипта

Правило 1. КАПС = эмфаза

Правило 2. ... = пауза

Правило 3. [в квадратных скобках] = режиссура

Полный пример скрипта

Диалог двух персонажей в одном промпте

Требования к референс-фото

Как я использую это в работе

Где это всё стыкуется

Что дальше

Гайды — это инструменты. VOSS — это результат

AI-блогер для Instagram, TikTok и YouTube

Правило 1. `КАПС` = эмфаза

Правило 2. `...` = пауза

Правило 3. `[в квадратных скобках]` = режиссура