Ярослав Городецкий: Виртуальный телеведущий для производства новостей

Ярослав Городецкий, генеральный директор и основатель CDNvideo, выступил с докладом «Виртуальный телеведущий для производства новостей» на Online круглом столе «Broadcasting 2021. Технологии новостного производства» от 21 сентября 2021 года.

Ярослав Городецкий: Сейчас идет тренд на упрощение создания контента. Каждый владелец смартфона получил возможность быть телеведущим, поэтому телевидению приходится конкурировать с ютуберами, тиктокерами и другими видеоблогерами. Так или иначе есть запрос на то, чтобы сделать создание контента более дешевым.
Для того, чтобы сделать выпуск новостей, нужно много всего: помещение, освещение, камеры, микрофоны, режиссерский пульт, суфлер и так далее.

Мы предложили решение, которое позволяет все это упростить: достаточно ввести текст в окно браузера, и вы получите файл МР3, который можно выводить в эфир.
Как же это работает? Синтезатор речи и нейронные сети LSTM создают мимику под аудиофайл. После обработки нейросеть GAN генерирует контуры лица и тела.

Преимущества виртуального диктора

 Существенное сокращение расходов на аренду студии.
 Отсутствие человеческого фактора.
 Возможность круглосуточно моментально генерировать контент.
 Поддержка хромакея для дальнейшего редактирования, API.
 Возможность генерировать контент в потоковом режиме.

Ярослав Городецкий, CDNvideo: «Виртуальная телеведущая для производства новостей»

Виртуальный диктор сейчас находится на начальном этапе жизни, но достаточно хорошо технически отлажен, работает в нашем облаке, и мы гарантируем его работу 24/7. Сейчас мы ведем серьезные работы над тем, чтобы улучшить голос, синхронизацию, получить более качественную «живую» картинку.
Понятно, что это не то идеальное качество, к которому привыкли люди на федеральных телеканалах, но мне кажется, что для небольшого канала, который ставит себе задачу делать новости быстро, оперативно и дешево, это вполне приемлемое решение.
Если вы захотите к нам обратиться, то мы вместе поработаем над качеством. Что для этого нужно? Вы даете нам от 2,5 часов видеозаписи с вашим ведущим, выбираете голос, а дальше мы обучаем нейросеть. Мы можем сделать несколько образов в разных одеждах, с разным макияжем и так далее. У нас есть и свой ведущий, мы можем вам его дать, но тогда велика вероятность, что он появится где-то еще.

Сферы использования

Нашего виртуального диктора можно использовать для производства новостей, корпоративных роликов, тематических программ.
В прогнозах погоды помимо ведущего мы можем подтягивать из интернета саму погоду и делать картинку с атмосферными фронтами и цифрами температур.
На музыкальных каналах можно использовать наш продукт для рассказа о новинках недели, чартов и так далее.
Я считаю, что можно применять его в тех случаях, где используется много типового контента. Качество будет не самым идеальным, зато все делается быстро и в больших количествах вплоть до того, что под разные категории зрителя можно производить разные категории контента, что актуально для работы в соцсетях.

Линейка продуктов для вещания

Виртуальный диктор – это один из наших новых продуктов. Вообще мы представляем достаточно большую линейку продуктов для вещания. У нас есть платформа для вещания медиаконтента Live Video, собственный HTML5-плеер, защита интернет-ресурсов и разработки нестандартных решений.
Основной наш бизнес – это CDN, в этой сфере мы держим 28% рынка России. У нас много клиентов из разных областей, много телеканалов, как крупных, так и небольших, как региональных, так и тематических.

Тимур Кулгарин

Тимур Кулгарин, технический директор «СТС Медиа»: Мне потребовалось совсем немного времени, чтобы сгенерировать пару роликов, но в каких-то словах, особенно в ударениях и в словах, заимствованных из английского языка, она ошибается. Также хотелось бы видеть побольше жестикуляции.
Ярослав Городецкий: Управление ударениями возможно, есть специальный язык разметки, который он понимает. Чтобы получить хорошую жестикуляцию, нужно накладывать сгенерированное лицо на видео ведущего, и в минимальном варианте это уже работает. Сделать жестикуляцию по смыслу тяжелее, но тоже вполне реально. Я думаю, в течение полугода мы дойдем до этого. Главное, чтоб рынок принял этот продукт, а мы будем дальше его улучшать.
До конца года мы готовы делать условно бесплатное тестирование со всеми, кто пожелает, и оттачивать свое мастерство. Сейчас в бесплатном режиме этим продуктом пользуются несколько компаний, и одна даже запланировала выпуск передачи с Виртуальным диктором.

Алексей Брусницкий

Алексей Брусницкий, директор технической дирекции АО «ТВ Центр»: Не кажется ли вам, что подменяя живого человека на синтезированного, вы теряете самую главную функцию – доверие телезрителя к персонажу, который произносит новости или что-либо?
Ярослав Городецкий: Правильный вопрос. Я не призываю вас убирать знаменитых ведущих, у которых есть своя аудитория. Я говорю о том, что это простой диктор, который может сделать прогноз погоды, объявление о следующих передачах или что-то подобное. Он может прочитать спортивные новости, к которым можно подгрузить последние результаты, и это займет три минуты. Таким образом, небольшие ролики можно делать очень быстро и оперативно. Здесь идет речь не о проникновенном общении одного человека с другим, а о контенте, который надо производить много, массово, когда текстовый контент важнее, чем видео. Такой контент вполне можно автоматизировать.

Павел Агейкин

Павел Агейкин, главный технолог ТТЦ «Останкино»: Вопрос с доверием действительно актуален. Учитывая то, какие семимильные шаги сейчас делают технологии, связанные с Meta Human, как за последний год выстрелила технология компании Epic Games, связанная с воспроизведением мимики и вообще тела человека, которое сейчас как раз дорабатывается с помощью нейросетей, можно сказать, что скоро телезритель будет видеть своих любимых ведущих в привычном формате и даже не догадается, что это цифровой двойник.
Вопрос как раз по этой теме. Я так понял, что сейчас вы работаете с 2D-слоем. А с 3D-объектами вы работаете? Я имею в виду генерирование для ведущего всего контента в 3D-слое.
Ярослав Городецкий: Когда мы начинали проект, у нас стоял вопрос, делать 2D или 3D. По многим причинам мы выбрали 2D. Основная причина – это то, что мы хотели сделать продукт, который генерирует видео в режиме реалтайм, то есть чтобы время создания видео не превышало длины этого видео. 3D – это все-таки сложный и дорогой рендеринг, затратный по времени. Наш продукт на порядок дешевле настоящего живого производства, это и было нашей целью. А сделать реалистичный 3D-рендеринг лица в реалтайме пока практически невозможно. Мне кажется, для массового контента 2D подходит лучше.