Google объявила вчера о запуске Gemini AI, последнем продукте компании в области генеративного искусственного интеллекта.
Этот долгожданный запуск является крупнейшей попыткой компании конкурировать с ChatGPT от OpenAI, который был представлен в эту же неделю год назад, вызвав бум в области AI в 2023 году.
Сундар Пичаи о принципах подхода к AI
В своем блоге генеральный директор Google и Alphabet Сундар Пичаи подчеркнул принципы компании в подходе к AI, отметив возможности и негативные последствия, которые может принести технология.
Пичаи сказал, что “мы только начинаем понимать возможности AI, и наш подход к этой работе является смелым и ответственным. Это означает амбициозные исследования и разработку возможностей, которые принесут огромные выгоды людям и обществу, при этом создавая защитные механизмы и сотрудничая с правительствами и экспертами для управления рисками, поскольку AI становится более способным.”
Gemini 1.0: От текста до видео и изображений
В отличие от ChatGPT, который работает только с текстом, Gemini 1.0 был обучен на архиве данных Google и работает с текстом, изображениями и видео. Pro, первая версия Gemini 1.0, уже интегрирована в чат-бот Bard от Google для англоязычных пользователей и в конечном итоге будет доступна более чем в 170 странах и территориях.
Gemini станет доступен разработчикам через Cloud API Google с 13 декабря. В конечном итоге будут доступны три версии: Pro, которая запускается на этой неделе, Ultra — верхняя линейка, предназначенная для использования в центрах обработки данных и предприятиями, которая будет выпущена в 2024 году, и Nano — версия для платформы Android от Google, включая смартфоны Google Pixel. Другие новые продукты будут представлены в будущем, если они пройдут, как говорит Google, “обширные проверки на доверие и безопасность”.
Bard Advanced: новая версия чат-бота Bard в 2024 году
Ожидается, что новая версия чат-бота Bard под названием Bard Advanced будет запущена в 2024 году.
Мультимодальные возможности Gemini
С добавлением возможностей анализа изображений и видео к уже существующим текстовым платформам AI, ожидается, что запуск поднимет планку в войне AI, по мнению The Verge:
“Основным преимуществом Gemini является его способность понимать и взаимодействовать с видео и аудио. Это было частью плана Gemini с самого начала. Google не обучал отдельные модели для изображений и голоса, как это сделал OpenAI с DALL-E и Whisper; она создала одну мультисенсорную модель с самого начала.”