Google представила Agentic Vision — новый подход к визуальному пониманию в модели Gemini 3 Flash. Вместо статичного анализа изображения система использует агентный цикл с кодом, позволяя ИИ активно приближать, анализировать и проверять визуальные детали шаг за шагом.
Вступление
Google представила Agentic Vision. Вместо статичного анализа изображения система использует агентный цикл с кодом, позволяя ИИ активно приближать, анализировать и проверять визуальные детали шаг за шагом.
Современные ИИ-модели умеют «видеть», но делают это за один проход. Если важная деталь оказывается слишком мелкой или скрытой — серийный номер на чипе, знак вдали или элемент схемы — модель вынуждена угадывать. Именно этот фундаментальный предел статического зрения Google решила обойти в Gemini 3 Flash. Agentic Vision переводит визуальное понимание из режима «взгляда» в режим расследования. Модель не просто описывает изображение, а планирует действия, выполняет их и проверяет результат, опираясь на реальные пиксели.Подробности
Agentic Vision внедряет в задачи компьютерного зрения агентный цикл Think – Act – Observe. Сначала модель анализирует запрос и изображение, затем формирует пошаговый план. После этого она генерирует и выполняет Python-код для активной работы с изображением — кадрирования, поворота, аннотаций или вычислений. Полученные визуальные результаты добавляются обратно в контекст, позволяя модели продолжить анализ уже с уточнёнными данными.
Ключевой элемент здесь — встроенное выполнение кода. За счёт него Gemini 3 Flash может не угадывать, а проверять. По данным Google, включение code execution даёт стабильный прирост качества на 5–10% по большинству визуальных бенчмарков.
Это особенно заметно в задачах, где ранее ИИ чаще всего ошибался: подсчёты, визуальная арифметика, анализ мелких деталей и плотных таблиц.
Контекст
Agentic Vision уже используется разработчиками в прикладных сценариях. Например, платформа PlanCheckSolver применяет Gemini 3 Flash для проверки строительных планов. Модель поэтапно вырезает и анализирует отдельные участки изображений — края крыш, секции зданий, узлы конструкций — и возвращает их в контекст, чтобы подтвердить соответствие нормативам. Такой подход дал прирост точности примерно на 5%. Другой показательный кейс — аннотация изображений. Вместо простого описания Gemini 3 Flash может рисовать bounding boxes и метки прямо на изображении, используя код как «визуальный черновик». Это снижает ошибки в подсчётах и делает выводы проверяемыми. В задачах визуальной математики Agentic Vision уходит от вероятностных рассуждений. Модель извлекает данные из изображения, передаёт вычисления в детерминированную Python-среду и строит графики через Matplotlib. Таким образом, многослойные визуальные задачи перестают быть источником галлюцинаций.Ограничения
Agentic Vision пока не полностью автономна. Некоторые действия — поворот изображений или сложная визуальная математика — всё ещё требуют явного запроса со стороны разработчика. Google также подчёркивает, что сейчас функция доступна только в модели Gemini 3 Flash, хотя в будущем планируется расширение на другие размеры моделей. Кроме того, использование кода увеличивает вычислительную сложность задач, что важно учитывать при масштабировании. Тем не менее Agentic Vision задаёт новое направление: визуальное понимание как процесс, а не момент. И если раньше ИИ «смотрел», то теперь он учится осматривать, проверять и доказывать.Подпишитесь на наш Telegram-канал
Будьте в курсе последних новостей и обновлений, подписавшись на наш Telegram!
Перейти в Telegram