Олег Березин, SMPTE: Так ли нужен нам IP, если есть уже ИИ?

Олег Березин
Олег Березин на конференции

Олег Березин – председатель секции SMPTE, генеральный директор АО «Невафильм», член совета директоров Европейского форума цифрового кино, учредитель Высшей школы киноинженеров (Школа инженеров телевидения), куратор проекта TKT Education, на Международной Гибридной Выставке-Конференции Broadcasting / Cinema 2023. Post-IBC Kazakhstan.

Олег Березин: Так как тема конференции сегодня посвящена применению AI в медиаиндустрии, то в первую очередь стоит отметить, что медиапроизводство сегодня так или иначе использует технологии искусственного интеллекта.

Задача ИИ — замена рутинных операций

На мой взгляд, задача искусственного интеллекта, по крайней мере, на ближайшее десятилетие— это замена рутинных операций. То, что делает неквалифицированный специалист заменит искусственный интеллект. Поэтому я часто говорю, что искусственный интеллект убьёт посредственность, но не творчество.

 Области применения ИИ в медиаиндустрии

Я выделил несколько областей применения ИИ в медиаиндустрии. Отчасти понятно, каким образом те или иные технологии искусственного интеллекта могут сегодня использоваться в медиаиндустрии, начиная от разметки контента, тегирования,  индексации архивов и поиска.

ИИ убьёт посредственность, а не творчество

Например, российский канал ТВ Центр вместе с ЯндексCloud и МФТИ реализовали систему поиска по своему архиву на основе текстовых описаний видеосюжетов. Например, детектирование и индексация ярких моментов – хайлайтов – особенно часто используется для спортивных трансляций. Это кадрирование для различных типов экранов, детектирование сюжетов и событий для интеллектуальной рекламы, то есть, когда реклама в сюжете релевантна тому, что показывается в этом сюжете.

Олег Березин, SMPTE: «Так ли нужен нам IP, если есть уже ИИ?»

Очень интересная область применения искусственного интеллекта в обработке медиаконтента, в шумоподавлении, в повышении пространственного и временного разрешения контента, цветокоррекции, в компрессии, в 3D-моделировании, в создании визуальных эффектов VFX и так далее.

Также актуальная тема для ОТТ-сервисов — это контроль качества вещания, детектирование выпадений, оптимизация битрейта через динамическое разрешение или через динамическую скорость кадров. Важный сегмент, особенно в наше время – модерация контента, а также выявление ненормативной лексики и жестов.

Автоматический перевод используется для локализации, для генерации аудио и субтитров, для закрытых субтитров. Безусловно, это поддержка технологий, так называемых Object Based Media, когда контент представляет собой уже не просто аудиовизуальный монолит, а передачу составных частей. Если взять на примере звука, то устройству потребителя приходит уже не готовый микс, а диалоги, музыка, шумы. Во время воспроизведения на устройстве потребителя, в зависимости от внешних условий и предпочтения потребителя, происходит автоматизированное сведение фонограммы. То же создается для видео-объектов. Появляется возможность передавать кадр как совокупность цифровых моделей, которые возможно реконфигурировать, меняя композицию кадра в зависимости от размера и формата экрана.

Grand View Research

Если говорить о цифрах: недавно было опубликовано исследование Grand View Research, показывающее, что объём мирового рынка искусственного интеллекта в медиа и в развлечениях к 2030 году предполагается на уровне около $100 млрд.

Объём рынка ИИ в медиа и в развлечениях к 2030 году достигнет $100 млрд

Это показатель того, насколько бурно развивается отрасль, технологии, и как появляются новые решения.

Ключевые темы IВC 2023

Обратите внимание на ключевые темы IВC 2023 года:

  • полностью программные решения
  • тотальная виртуализация
  • «всё в облаках»
  • искусственный интеллект.

Это четыре основных тренда современной медиаиндустрии.

Adobe Creative Cloud на IBC 2023

На IBC 2023, например, был анонсирован ряд новых функций Adobe Creative Cloud, которые позволяют улучшать диалоги, очищать их от посторонних шумов, исправлять ошибки оператора, реставрировать архивный аудиоматериал, тегировать этот материал.

Adobe развивает так называемый монтаж на основе текста Text-Based-Edit. Такой подход позволяет, получив материал со съёмки, например, интервью, преобразовывать фонограмму и содержание кадра в текст, затем монтировать из полученного текстового описания сюжет, и на основании смонтированного текста автоматически собрать финальный видеоряд. При этом в эту технологию уже внедрена весьма актуальная функция – удаление из текста слов-паразитов.

Ещё одно интересное применение технологий искусственного интеллекта в индустрии теле-, радиовещания демонстрирует телеканал Fox Sports, который использует сервисы Amazon Web Services (AWS), позволяющие из одного кадра извлекать различные истории.

Видеокомпрессия и ИИ

Искусственный интеллект очень активно сегодня используется в видеокомпрессии и в видеокодеках, поскольку сама технология видеокодеков позволяет существенно снизить потоки. Очевидно, что эффективная компрессия сегодня — это один из самых актуальных инструментов, необходимых для любого вещания. И уже несколько компаний на сегодняшний день работают над тем, чтобы найти способы применения искусственного интеллекта в видеокомпрессии.

Несколько компаний уже работают над тем, чтобы найти способы применения ИИ в видеокомпрессии

Интересный факт, что в своё время основатель группы MPEG, занимающейся кодеками компрессии и транспортными потоками, в какой-то момент решил оставить свою группу и организовал новую компанию MPAI, которая фокусируется в различных областях применения искусственного интеллекта в медиаиндустрии, а также работает над улучшением существующего видеокодека EVC(добавляет инструменты искусственного интеллекта).

Мы видим, что появляется множество компаний, активно целенаправленно занимающихся поиском и реализацией решений применения ИИ в медиаиндустрии. Однако когда мы говорим о применении искусственного интеллекта, надо понимать, что эти все технологии требуют больших вычислительных ресурсов либо в виде облачных сервисов медиагигантов, таких как Google, Microsoft, AWS Amazon, либо в виде локальных облачных решений. И сегодня в технологическом процессе телекомпании, телерадиокомпании, медиакомпании, невозможно обойтись без подобных сервисов.

Здесь тоже есть свои тренды – сегодня всё больше и больше набирает популярность аренда вот таких облачных вычислительных ресурсов и решений под конкретные задачи на конкретное время, а не приобретение таких сервисов и ресурсов в собственность. Так возникает вопрос: «Каким образом наши медиаданные будут соотноситься с теми данными, которые сегодня расположены в облаках?».

Очевидно, мы сталкиваемся с тем, что столь нам любимый в последние несколько десятилетий интерфейс SDI начинает нас ограничивать.

Во-первых, SDI – это однонаправленный интерфейс, во-вторых, это соединение «точка-точка». Безусловно, есть маршрутизация, но невозможно с помощью SDI сделать multicast на несколько точек получения. Требуется много дополнительных данных, которые не всегда SDI может передать.

Здесь на первое место выходит преимущество, которое сегодня даёт IP-технология. Например, у нас есть источник данных, которые через шлюз AWS Elemental мы отправляем в облако к Amazon. Amazon обрабатывает наши данные, в том числе при помощи искусственного интеллекта, и возвращает их нам обратно. В таких преобразованиях при работе с SDI появляются задержки и ограничения, недопустимые в определённых ситуациях. Поэтому IP становится всё более общим решением.

Другими словами — это совпадение трендов, когда IP получило бурное развитие, и медиаиндустрия нацелена на виртуализацию и на облачные решения, в том числе и на основе искусственного интеллекта. При этом нельзя забывать, что на «земле» и у «облаков» могут быть совершенно разные сетевые решения и интерфейсы, например, в «облаках» сегодня активно используются и сетевые решения Infini Band, и протоколы типа SRD – Scalable Reliable Datagram.

Передача медиаданных в IP сетях

Надо сказать, что на сегодняшний день сложился консенсус технологий вокруг передачи медиаданных в IP-сетях — это стандарты SMPTE семейства ST2110; набор открытых спецификаций AMWANMOS; протокол точного времени PTP и решения в области архитектуры сетевых инфраструктур.

Я хочу обратить ваше внимание на то, что на протяжении последних шести лет сама концепция стандартов SMPTE семейства ST2110  проникает практически во все сферы применения аудиовизуальных технологий. То есть это не только вопрос телевидения или радио. Это вопрос всех аудиовизуальных областей, которые нас окружают: производство медиаконтента в телевизионных комплексах, телевизионное вещание (широко применяются в телевидении третьего поколения ATSC 3.0 и в DVB NativeIP – DVB-NIP), OTT- вещание.

Стандарты ST2110 активно используется в звуковых решениях. Есть очень интересное решение — технология звуковоспроизведения с использованием синтеза звуковой волны HOLOPLOT, в которой с помощью сотен тысяч (!) маленьких громкоговорителей формируется фронт звуковой волны. Благодаря такому решению мы можем эту волну, как и свет, фокусировать и создавать систему общего звукового воспроизведения.

Kino Flo

Очень интересно решение было представлено на IBC 2023 – это осветительный прибор, который фактически является видеодисплеем. Вместо части LED-объёма при использовании технологий ICVFX (In Camera Visual Effects) можно использовать такой осветительный прибор в качестве источника художественного освещения для создания световых эффектов, синхронизированных с общей сценой.

Нюанс состоит в том, что яркость традиционной LED-панели составляет примерно 1000 нит, а яркость таких осветительных приборов — 10000 нит.

Gstreamer

Компания NVIDIA интегрировала протоколы ST2110 в свой пайплайн Gstreamer, и эти протоколы уже стали доступны в конвертерах, преобразователях и транскодерах, используемых в Gstreamer.

ST2110 сегодня активно используется и в качестве протоколов передачи между распределёнными студиями, причём сама передача данных может осуществляться с помощью SRT, либо RIST, либо иных протоколов.

Особо обращу ваше внимание, что 2110 — это не только про передачу данных, но и про объединение всех устройств в одну «семью». Вы находитесь, условно, в студии в Астане. Но вам нужен доступ к студии в Алматы. Вы не просто соединяетесь с Алматы видеомостом, но имеете доступ из студии в Астане ко всем ресурсам в Алматы. Если в Алматы подключили камеру, это видно в аппаратной студии в Астане.

Нюанс состоит в том, что нет возможности открыто передавать эти данные, поскольку недоброжелатели могут влезть в систему. Чтобы прикрыть свои ресурсы, но использовать публичный интернет для соединения двух равноудалённых студий, активно применяется решение ST2110 и спецификации AMWANMOS.

Причины развития новых технологий: Фукусима, Covid и ИИ

Но я хотел бы снова вернуться к тому, в какой мир сегодня шагнули.

Когда-то мы мгновенно перешли от видеокассет к файловому производству. Реальной причиной быстрого перехода от видеокассет к файловым системам послужила авария на АЭС Фукусима в 2011 году, когда несколько заводов по производству магнитной плёнки были разрушены, и Sony решила их не восстанавливать и переносить куда-то производство.

Что стало причиной бурного роста в последние годы на наших глазах облачных решений, распределённого производства, удалённого производства? Эта причина – Covid. Люди заточились в домах, в течение нескольких дней необходимо было наладить дистанционную работу каждого телеканала или радиостанции. Условно говоря, диктор у себя дома, звукорежиссёр у себя дома, продюсер на даче, директор канала за границей. Встала задача сделать так, чтобы вся удалённая система работала вместе, дабы зритель не заметил никаких потерь. Именно Covid, а не развитие технологий как таковых, стал причиной развития облачных решений и передачи данных в нашей индустрии. Но справедливости ради замечу, что без готовых технологий и инфраструктуры – публичного интернета, надёжных протоколов передачи данных и т.д., ничего бы не вышло.

Сегодня же мы наблюдаем тренд, который пришёл к нам из IT-отрасли, всё больше и больше поглощающей нашу медиаиндустрию. Это тренд на виртуализацию, на контейнеризацию, на активное использование sharedresources–ресурсов общего пользования.

Эта волна меняет важную парадигму – что такое сегодня «телерадиоканал», что такое телерадиокомпания.

Раньше телекомпания – это много аппаратных, больших аппаратных со множеством стоек различного оборудования. Это было красиво! Мы приглашали друзей и подруг посмотреть, как всё устроено, а они были просто в восхищении от того, сколько кругом красивых лампочек, сколько вокруг постоянно занятых делом специалистов. Сегодня это уходит в прошлое. Мы видим, насколько меняется внешний вид современной аппаратной. Мы переходим от аппаратных решений к программным решениям, и двигаемся к формированию канала как набора медиафункций. Но это уже другая интересная тема.

В заключении не могу не сказать о том, если вы хотите проникнуть в этот интересный мир IP, понять как работают протоколы передачи медиаданных в логике SMPTE ST2110, что такое PTP и спецификации NMOS – нужно учиться, учиться и учиться!

Олег Березин, SMPTE: «Так ли нужен нам IP, если есть уже ИИ?»

Сегодня в моей онлайн-школе (mpe.edu.ru) организованы два курса повышения квалификации: один большой, другой поменьше, где мы обсуждаем передачу медиаданных в IP сетях.

В Казахстане у нас есть надёжный партнер – компания ASFilm (Алма-Аты), через них можно решить вопросы оплаты в местной валюте.

Добро пожаловать в мир IP! И если мы задумываемся о применении искусственного интеллекта в медиапроизводстве, то надо признать, что без IP нам не обойтись!

Презентация 

Подкаст

Международная Гибридная Выставка-Конференция Broadcasting / Cinema 2023. Post-IBC состоялась 3-4 октября 2023 года в Астане, Казахстан, в «Қазмедиа Орталығы».

Организатор – ТКТ1957 LLC
Генеральный партнёр – Qualitron LTD
Медиапартнёры: Cine Gear Expo, «Қазмедиа Орталығы»
Партнёры: EtereBroadView SoftwarePlaybox Neo
Президент конференции – Владислав Богусевич.

О конференции Broadcasting / Cinema

Гибридные выставки-конференции Broadcasting / Cinema запущены TKT1957 летом 2022 года. Broadcasting / Cinema представляет собой выездную конференцию смешанного формата, проводимую в странах CIS и Грузии.

Конференция гибридная, включает фактический сбор технических специалистов и производителей оборудования в определённом месте и предусматривает в то же время участие удалённых спикеров и зрителей, которые подключаются по сети интернет. Для более подробного знакомства с оборудованием предусмотрена Touch@Try Zone: живые рабочие экспозиции с консультациями специалистов.

Целевая аудитория – технические специалисты телеканалов, радиостанций, кинопроизводственных компаний, операторов ТВ, online-платформ, стадионов, спортивных объектов, концертных залов, театров, учебных заведений, организаторов мероприятий, топ-менеджеры системных интеграторов и вендоров из стран: Азербайджан, Грузия, Армения, Молдова, Казахстан, Кыргызстан, Узбекистан, Украина, Литва, Латвия, Таджикистан, Эстония, Европа, Турция, страны Ближневосточного региона.

Организатор – TKT1957 LLC.

Следующая конференция: