Канат Сахария, генеральный директор медиахолдинга Atameken Business, выступил с докладом «Виртуальная ведущая Atameken Business заговорит на казахском языке. ИИ в стратегии развития делового телеканала» на Международной Гибридной Выставке-Конференции Broadcasting / Cinema 2023 Kazakhstan.
Канат Сахария: Я очень рад, что сегодня на этой конференции собралась технически грамотная аудитория. Тема моего доклада посвящена технологическому развитию, внедрению цифровых технологий и искусственного интеллекта в процесс производства телевизионного аудиовизуального контента.
Три года назад в Казахстане появился первый виртуальный ведущий, прототипом которого стал известный казахский актёр Санжар Мади. Мы назвали его i-Sanj. Виртуальный клон Санжара появился очень своевременно и спас нашу компанию в период пандемии, когда всем запрещали приходить на работу. Так в условиях дистанционной работы эта модель показала себя наилучшим образом.
История i-Sanj
i-Sanj – результат перезагрузки индустрии, тренд цифровых медиа. С его помощью стало реальным преподносить информацию инновационным способом.
Новости на бизнес-канале сменили свой живой облик на современный оцифрованный вид. Неподготовленному зрителю трудно заметить кардинальные различия с первых секунд. Синтезированный голос готов озвучить информацию любой сложности. Работает 24 часа в сутки, не запинается, не требует дублей и перерывов на обед, гримёров и костюмеров, отпуска и зарплаты. Стоит отметить, что при этом килобайт неоспоримых преимуществ не станет угрозой для замены живых ведущих телевидения.
Ещё совсем недавно технологии создания роботов-ведущих держались в строгом секрете. Однако Atameken Business удалось реализовать амбициозный проект с помощью нейронной сети и силами отечественных разработчиков – компании ICT Service.
Доказано, что искренность ведущего магнетизирует внимание зрителя. Богатство речи, красивый внешний вид и расстановка акцентов в предложениях играют большую роль в воздействии на аудиторию. Диапазон выражений лица i-Sanj пока лимитирован. Но технологии искусственного интеллекта развиваются со сверхбыстрой скоростью, а значит различия между реальным и виртуальным совсем скоро исчезнут.
После успешного запуска проекта виртуального русскоязычного ведущего, наши технические специалисты получили задание создать цифровую ведущую для новостей на казахском языке.
И теперь, пользуясь случаем, я хочу представить всем собравшимся нашу новую виртуальную коллегу – I-Sana.
Думаю, технических специалистов заинтересуют характеристики нового киберведущего. Разработка велась на языке программирования Python. Для работы с моделью машинного обучения разработчики использовали фрэймворк pytorch. Для покадрового преобразования видео использовалась модель машинного обучения wav2lip.
Она состоит из этих трёх модулей: экспертная модель, генератор изображения по аудио и дискриминатор визуального качества изображения. Для преобразования голоса разработчики использовали модель AutoVC, которую сконфигурировали специально для повышения качества. Для синтеза речи задействовали нейросеть по генерации речи из текста Tacotron 2.
В нашем проекте впервые синтезирована казахская речь, воплощённая в образ киберведущей. Около 9 месяцев назад у разработчиков появилась информация о возможности синтезировать именно женский голос. До этого мы работали только с мужским. Но его мы никак не могли одобрить, так он оказался слишком механизированным, роботизированным, грубым. Женский вариант произношения более приближен к человеческому и адаптирован под голосовые интонации самой виртуальной ведущей.
Работа с лицом
В процессе создания цифровой сотрудницы разработчики сначала обучали экспертную модель определять, соответствуют ли друг другу фрагменты аудио и видео. На этом шаге важно аккуратно подготовить данные, определить расположение лица в кадре, убрать посторонний шум из аудио, обеспечить синхронизацию.
Далее следовал этап машинного обучения. Разработчики обучали генератор создавать на основе аудио изображение, которое удовлетворит экспертную модель по соответствию аудио. А также будет соответствовать дискриминатору по качеству изображения. Уточню, дискриминатор – это функция, которая сравнивает схожие входные данные. Подобное сравнение – сложный процесс, требующий больших вычислительных ресурсов и времени.
Преобразование голоса
Основная сложность в работе с голосом заключалась в извлечении из многочасовой речи ведущей отдельных слов и отсечении у них индивидуальных характеристик речи. Неправильно произнесённое слово или неточная интонация приводили к тому, что машина не распознавала правильность произношения этих слов. Приходилось вручную отсматривать многочасовые записи и удалять погрешности.
Сложность в том, что исключение индивидуальных характеристик речи приводило к потере контента. Неправильно произнесенное слово убиралось из машины, а значит и из лексикона киберведущей. Таким образом перед разработчиками встала задача найти компромисс по схожести речи и минимальной потере контента речи. При этом модель виртуальной ведущей должна была уметь различать контент.
Обучение проводилось на основе большого датасета Назарбаев Университета с качественной речью нескольких спикеров, вслух зачитавших несколько книг на казахском языке, в том числе, роман-эпопею «Путь Абая». Благодаря такому обучению, новый синтезированный голос нашей виртуальной ведущей может озвучивать информацию любой сложности ясно и выразительно. Фактически нашей модели известны все слова в лексиконе, который используется в казахской речи.
Принцип отбора прототипа
Из множества достойных кандидатур в течение года редакционный совет отсматривал селебрити, действующих ведущих, знаменитых казахских спортсменок, блогеров. Это очень субъективный сложный процесс. В результате выбор пал на талантливую ведущую, журналистку с большим опытом, мисс «Казак-Аруы» Санию Темирхан. На наш взгляд, она вполне достойна стать прообразом первого виртуального ведущего на казахском языке.
При создании образа виртуальной ведущей, мы использовали последние модели машинного обучения и новый алгоритм обучения этих моделей. Данная информация публиковалась около двух лет назад в научных изданиях. Мы не могли применить эти решения на производстве при создании уже готового продукта, так как они экспериментальные. Поэтому мы адаптировали новые алгоритмы и методы для нашего продукта.
Также женский голос, как правило, имеет более широкий динамический диапазон. Проблема создания женского голоса, похожего на оригинал, требует больших усилий для реализации.
Работа в кадре
Если при съёмке обычной ведущей в студии необходимо несколько камер, всевозможные ракурсы, разная крупность, постоянная смена динамики. То в случае с виртуальной ведущей используется набор разных подготовленных движений, возможность менять крупность плана, одежду и её цвет, положение в кадре, когда модель стоит или сидит. Вся работа проводится штатным редактором через платформу Virtual News Reader. Итогом является выгрузка видеофайла, где i-Sana читает готовый текст, изначально напечатанный в файле. Далее дизайнеры приступают к финальной части и прорабатывают фон.
Эмоции в кадре
Без сомнения, эмоции отличают человека от виртуального двойника. Доверие к ведущему со стороны зрителей возникает в результате невербального контакта, через эмоции, интонации. Добиться этого в виртуальном пространстве достаточно сложно. У нашей киберведущей лимитированный набор эмоций, но при этом она выглядит строгой, отстранённой и сосредоточенной, работает без суфлера, не требует дублей.
Киберженщина в телеэфире
На экранах телевизоров и смартфонов i-Sana появилась 7 марта, в преддверии международного женского праздника, так как образ создан в виде прекрасной девушки. Новую модель цифровой телеведущей представил русскоязычный виртуальный коллега по цеху i-Sanj, который работает на Atameken Business уже три года.
Владислав Богусевич: Возможны ли какие-то элементы интерактивного общения с виртуальным ведущим?
Канат Сахария: Уверен, это станет следующим этапом нашего развития. Сейчас набирает популярность ChatGPT. Мы ведём очень активные переговоры с разработчиками по поводу совмещения двух сервисов – когда возможности искусственного интеллекта по сбору конкретного выпуска новостей можно будет интегрировать с автоматической задачей по созданию виртуального ведущего.
При этом текст пишет не редактор, как это сейчас делают журналисты, а искусственный интеллект. Проверив за несколько секунд все ресурсы интернета, он сможет собрать любой выпуск новостей, который далее путём автоматизации сразу уходит на playout, если говорить о телевидении. Либо загружается в социальные сети.
То есть фактически нужен один оператор, который задаст искусственному интеллекту параметры выпуска новостей. Через несколько секунд готовый текст через файл загрузится в ресурсы виртуального ведущего. И уже через 5 минут после заданных параметров в плейлист заливается готовый десятиминутный выпуск новостей, который можно выдавать в эфир без каких-либо дополнительных элементов.
Есть опасность, что профессия журналиста скоро станет не нужной. На мой взгляд, стоит задуматься не только журналистам, но и руководителям, техническим директорам, инженерам. Сейчас время научно-технического прогресса и, прежде всего, важно использовать технологии для улучшения качества эфира.
Наш виртуальный ведущий пока нуждается в доработке систем синхронизации, артикуляции, произношения. Однако это уже готовая digital-модель, которая может совмещаться с искусственным интеллектом, и сама генерировать тексты. Это уже серьёзная заявка.
Что касается интерактива, это вопрос ближайшего будущего. Планируется тестирование данной технологии на территориях банков и торговых центров, где есть возможность установки необходимых панелей. Задача состоит в том, чтобы наладить взаимосвязь голосовых команд для преобразования в текст с последующим появлением на экране виртуальной ведущей.
К примеру, человек заходит в торговый центр и спрашивает, где купить нужный товар. За считанные доли секунды голос покупателя преобразуется в текст, текст в виртуального ведущего, а ведущий сразу выдает ответ. Если это короткая информация, то через несколько секунд человек видит перед собой виртуальный образ и получает нужную информацию. В банковской системе по такому же принципу работают преднаписанные скрипты. На той же основе построен диалог с голосовым помощником Алисой.
Таким образом, мы планируем связать ChatGPT c сервисом нашего виртуального ведущего. Это решение позволит создать на экране видеообраз, который будет постоянно разговаривать со зрителем. Я уверен, что подобный проект вполне реализуем.
Прототипом новой виртуальной ведущей стала журналистка, PR-менеджер и обладательница титула «Казак-Аруы» Сания Темирхан. Цифровую теледиву назвали i-Sana. Она создана на языке программирования Python. Для синтеза её речи использована нейросеть Tacotron2. Над созданием i-Sana работала большая команда IT-специалистов, режиссёров, операторов и журналистов.
Международная Гибридная Конференция Broadcasting / Cinema 2023 Kazakhstan состоялась 28 февраля – 1 марта 2023 года в Астане, Казахстан.