Привет, на связи Илья.
Главная причина, по которой даже самые красивые AI-Reels не залетают, - голос. Картинка может быть кинематографичной, лицо стабильным, монтаж дорогим, но как только персонаж открывает рот и начинается то самое «здравствуйте-дорогие-друзья-сегодня-мы-поговорим» с интонацией навигатора 2010 года, зритель пролистывает. Робо-голос убивает доверие, потому что с первой секунды слышно, что это нейронка.
Раньше я обходил эту проблему просто: озвучивал сам или нанимал диктора. Дорого, долго, не масштабируется. А потом Higgsfield выкатили Lipsync Studio с моделью Speak v2 - первый инструмент, в котором AI-голос звучит живо: с паузами, смешками, шёпотом, эмоцией. И, что главное, с управлением через текст. Никаких эквалайзеров и интонационных кривых - пишешь скрипт по правилам и получаешь готовое выступление.
Сегодня разбираю, как этим пользоваться.
Что такое Lipsync Studio
Lipsync Studio - это отдельный раздел внутри Higgsfield, где собраны 6 моделей для синхронизации губ и генерации голоса. По сути это «студия озвучки», в которой ты:
- Пишешь скрипт (или загружаешь готовое аудио).
- Загружаешь фото персонажа или готовое видео.
- Получаешь ролик, где AI-модель говорит твой текст, попадая в губы и в эмоцию.
Раньше всё это собиралось из трёх разных сервисов: текст в одном, голос во втором, lipsync в третьем. Higgsfield склеили в одну кнопку - и добавили самое главное: управление эмоцией через форматирование текста. Об этом ниже.
6 моделей внутри: когда какую выбирать
В Lipsync Studio под капотом крутится 6 движков. Выглядит как зоопарк, но на практике делятся на 3 группы.
Группа 1 - генерация голоса из текста:
- Speak v2 - главная звезда. Превращает скрипт в аудио, понимая КАПС, паузы и ремарки в квадратных скобках. Это то, ради чего вообще стоит идти в Lipsync Studio.
Группа 2 - фото + аудио → говорящий персонаж (в скобках i2v значит image-to-video, «из картинки в видео»):
- Kling AI Avatar (i2v) - берёт одну фотку и аудио, выдаёт длинный ролик с говорящим персонажем. Лучший выбор для «AI-модель записывает обращение на камеру».
- InfiniteTalk (i2v) - для длинных дубляжей. Синхронизирует не только губы, но и голову, тело, мимику. Подходит для подкаст-нарезок и длинных монологов.
- Veo 3 / Veo 3 fast (i2v) - добавляет кинематографичное движение камеры, когда хочется не статичную говорящую голову, а кадр с динамикой.
Группа 3 - замена речи в готовом видео (v2v значит video-to-video, «из видео в видео»):
- lipsync-2 (v2v) - заливаешь готовое видео (своё или AI-генеренное), меняешь дорожку, и губы пересобираются под новый текст. Главный сценарий - дубляж на другой язык без пересъёмки.
- Kling Lipsync - то же самое, но с упором на покадровую точность синхронизации, когда нужно идеально попасть в каждый слог.
Моё правило: если делаю свежий ролик «с нуля» - Kling AI Avatar + Speak v2. Если переозвучиваю готовое видео (например, перевожу русский Reel на английский) - lipsync-2. Если хочется кино - Veo 3.
Магия Speak v2: форматирование скрипта
Вот здесь начинается то, ради чего этот гайд написан. Speak v2 - первая модель, в которой обычными символами в тексте ты управляешь интонацией. Без пресетов, без слайдеров.
Три правила, которые надо выучить:
Правило 1. КАПС = эмфаза
Слово или фраза заглавными буквами проговаривается с нажимом. Как будто ты выделил его голосом.
Плохо: «Это работает быстрее в 10 раз»
Хорошо: «Это работает быстрее в 10 РАЗ»
Speak v2 услышит акцент именно на «РАЗ» и поднимет на нём интонацию. Подходит для продающих фраз, где нужно подсветить цифру или ключевое слово.
Правило 2. ... = пауза
Троеточие - это длинная, осмысленная пауза в речи - та самая, которой не хватает 90% AI-голосов.
«Я думала, что у меня не получится... Но потом я попробовала ещё раз»
Speak v2 сделает между «получится» и «но» настоящую драматическую паузу, и зритель успеет вдохнуть. Это и есть разница между «нейронка читает» и «человек говорит».
Правило 3. [в квадратных скобках] = режиссура
Квадратные скобки - это ремарки для актёра. Эмоция, манера, акцент, физическое действие. Всё, что обычно режиссёр шепчет на ухо перед дублем.
Что туда можно писать:
[whispering]- шёпот[laughs]/[laughs softly]- смех / лёгкий смешок[sighs]- вздох[calm tone]- спокойный тон[excited]- возбуждённо[French accent]- с французским акцентом
Полный пример скрипта
Вот как выглядит настоящий рабочий скрипт для Speak v2 (это пример из официальной документации Higgsfield, я просто адаптировал):
[calm tone] Окей... Слушай внимательно.
Я пробовала ВСЕ генераторы видео.
Runway, Sora, Pika - всё.
...
[laughs softly] А потом я нашла ЭТО.
[whispering] И теперь не могу остановиться.
Прочти вслух и почувствуй, как сами собой расставляются паузы и интонация. Speak v2 делает то же самое - только голосом AI-модели, с её тембром.
Диалог двух персонажей в одном промпте
Самый кайфовый режим - диалоги. В одном скрипте ты прописываешь несколько персонажей, и Speak v2 выдаёт каждому свой голос автоматически.
Формат - имя через двоеточие:
Sam: Ты пробовал Speak 2.0?
Alex: Да. [whispers] Это нереально.
Sam: Докажи.
Alex: [French accent] Такова жизнь, мой друг.
На выходе получаешь два разных голоса в одном аудиофайле. Сэм - обычным голосом, Алекс - сначала шёпотом, потом с французским акцентом. В одном промпте, без двух отдельных генераций.
Это открывает целый жанр контента: мини-скетчи, интервью «двух AI-моделей», диалоги «я и мой коуч», подкаст-врезки. У меня один ученик собирает на этом весь канал - формат «бабушка и внучка обсуждают AI», 40k подписчиков за 3 месяца.
Требования к референс-фото
Speak v2 даёт голос, но чтобы губы шевелились, нужен визуальный носитель. Чаще всего это фото, которое скармливается в Kling AI Avatar.
Три правила к фотографии:
- Крупный план. Лицо занимает большую часть кадра. Не «модель на фоне моря в полный рост», а портрет - от груди до макушки.
- Лицо в камеру. Лицо смотрит прямо в камеру. Профиль и три четверти модель плохо обрабатывает - губы «плывут».
- Хороший свет. Свет ровный, без жёстких теней на лице. Тени на губах = lipsync ломается.
Если делаешь дубляж видео (lipsync-2 / Kling Lipsync) - правило одно: губы должны быть видны на исходнике. Если человек в кадре отворачивается, закрывает рот рукой или говорит из-за плеча - модель не справится.
Как я использую это в работе
Мой стандартный рабочий цикл «Reel за час» сейчас выглядит так:
- Пишу скрипт в Claude - он сразу расставляет КАПС, троеточия и ремарки по моему запросу («сделай как будто я рассказываю подруге шёпотом»).
- Беру портретное фото своей AI-модели из Soul ID (крупный план).
- Иду в Lipsync Studio → Kling AI Avatar.
- Загружаю фото, вставляю скрипт, выбираю голос.
- Жду 2-3 минуты.
На выходе получаешь Reel с живой эмоциональной речью. Я слил несколько таких роликов в TG-канал на тесте, и в комментариях посыпалось «Илья, это уже точно человек, не AI?». Это и есть та цель, к которой мы идём.
Где это всё стыкуется
Lipsync Studio - это третий слой после стабильного лица (Soul ID) и красивой картинки (Soul 2.0). Без первых двух Speak v2 бесполезен - некому говорить. Но без Speak v2 даже лучшая AI-модель остаётся немой картинкой.
Полная связка «лицо → образ → голос → движение → монтаж» - это и есть программа VOSS, которую я веду. 13 уроков по всему стеку, разборы учеников, шаблоны промптов. Если хочешь системно - посмотри тарифы.
Что дальше
Speak v2 - самый недооценённый инструмент Higgsfield на сегодня. Пока все восторгаются картинкой, голос остаётся узким местом у 95% AI-блогеров. Тот, кто разберётся с форматированием скрипта сейчас, через 3 месяца будет выпускать контент, который не отличить от живого. А кто продолжит лепить робо-голоса - будет терять подписчиков на первой секунде.
Возьми любой свой пост, перепиши его по правилам Speak v2 - с КАПСом, троеточиями и ремарками - и прогони через Lipsync Studio. Это займёт час. Результат увидишь сразу.
Все рабочие схемы 2026 года я выкладываю в TG-канале «Будни ИИ-продюсера» - каждый понедельник свежий промт, каждый четверг кейс ученика.
Переходи: t.me/+-AnHPGn9lZYwYWJk
















