Google представляет Gemini 2.0 Flash с мультимодальными возможностями

Мар 14, 2025 / 00:50

Компания Google анонсировала новую экспериментальную версию своей генеративной модели ИИ - «Gemini 2.0 Flash», которая привносит мультимодальные возможности. Теперь пользователи могут не только создавать изображения с нуля, но и изменять существующие фотографии через текстовые команды в привычном формате чата. Этот функционал позволяет, к примеру, заменить фон на горный пейзаж или добавить текст на русском языке, не требуя полного пересоздания изображения. Это нововведение ставит Google на шаг впереди таких компаний, как OpenAI и xAI Илона Маска.

«Gemini 2.0 Flash» поддерживает контекстуальный подход, что позволяет пользователям вносить изменения последовательно. Сначала можно менять элемент, например, одежду, затем перемещать объект в другую локацию, а в завершение настраивать освещение. Это делает процесс редактирования более гибким и экономит время. Все генерируемые изображения снабжены водяным знаком SynthID, что помогает бороться с распространением глубоких фейков и способствует легальному использованию контента в коммерческих целях, что особенно важно для дизайнеров и маркетологов.

Google представляет Gemini 2.0 Flash с мультимодальными возможностями

Среди интересных функций можно выделить клонирование текстур объектов и колоризацию старых фотографий. Кроме того, модель способна дорисовывать отсутствующие элементы изображений на основе текстовых подсказок, что значительно расширяет её функционал.

Несмотря на то, что «Gemini 2.0 Flash» понимает русские запросы, сервис на данный момент не доступен официально в России. Тем не менее, разработчики и компании могут протестировать модель через AI Studio или API бесплатно, хотя некоторые функции все еще работают нестабильно, как, например, замена лиц и сложные задачи по реставрации изображений.

Google анонсировала раннюю версию «Gemini 2.0 Flash», подчеркивая, что финальный релиз будет оптимизирован для задач реального времени.

Эксперты заметили, что эта модель объединяет креативные способности «Midjourney», точность «DALL-E» и интерактивность «ChatGPT». При успешном тестировании эта технология может значительно упростить многие процессы в дизайне, образовании и журналистике, позволяя мгновенно визуализировать данные и создавать иллюстрации без участия человека.

В то же время «Gemini 2.0 Flash» остается интересным инструментом, который изменяет понимание возможностей генеративного искусственного интеллекта.

Что касается AMD, то компания представила новую видеокарту «Radeon RX 9070 XT», украсив корпус аниме-девочками. Это событие гармонично вписывается в текущие тренды, где технологии и креативность продолжают пересекаться.

Таким образом, мы наблюдаем не только за развитием программного обеспечения от Google, но и за эволюцией аппаратного обеспечения в лице AMD, готового предложить новые возможности для геймеров и разработчиков.

В общем, современный технологический ландшафт показывает захватывающее сочетание инноваций, которое открывает новые горизонты для пользователей.

Google представляет Gemini 2.0 Flash с мультимодальными возможностями

Уголовная ответственность за незаконное изъятие паспорта в России

Максим Иванов предлагает изменить праздничные дни на 2026 год

Идеи москвичей для парков на платформе Город идей

Сбой интернета и авария на заводе в Волгограде

Арест блогерши Ранжел в Бразилии после родов

Лучшие постные салаты для здорового питания