Agentic Vision trên Gemini 3 Flash: Bước Ngoặt AI Vision

Sự xuất hiện của Agentic Vision trên dòng mô hình Gemini 3 Flash đã đánh dấu một bước ngoặt lớn trong kỷ nguyên AI, thay đổi hoàn toàn cách các mô hình thị giác máy tính vận hành. Thay vì chỉ dừng lại ở việc ‘nhìn’ một bức ảnh tĩnh, tính năng này giúp AI chủ động ‘điều tra’, phân tích và tương tác trực tiếp với hình ảnh. Hãy cùng CloudAZ khám phá cách công nghệ này tái định nghĩa việc xử lý dữ liệu hình ảnh trong thực tế doanh nghiệp.

Tìm hiểu thêm về Gemini 3 Flash

Agentic Vision là gì?

Nếu như trước đây, nếu một mô hình AI bỏ lỡ một chi tiết nhỏ (như số seri trên linh kiện hoặc biển báo xa xăm), nó sẽ buộc phải “đoán” kết quả. Agentic Vision giải quyết vấn đề này bằng cách biến việc hiểu hình ảnh từ một hành động tĩnh thành một quy trình chủ động (agentic process).

Bằng cách kết hợp khả năng suy luận thị giác với việc thực thi mã (code execution), Gemini 3 Flash có thể lập kế hoạch để: phóng to (zoom), kiểm tra và thao tác trực tiếp trên hình ảnh theo từng bước. Điều này giúp câu trả lời của AI luôn dựa trên bằng chứng thị giác rõ ràng.

Quy trình “Think – Act – Observe” (Suy nghĩ – Hành động – Quan sát)

Agentic Vision diagram introduces an agentic Think, Act, Observe loop into image understanding tasks
Agentic Vision diagram introduces an agentic Think, Act, Observe loop into image understanding tasks

Agentic Vision vận hành theo một vòng lặp thông minh:

  1. Think (Suy nghĩ): Mô hình phân tích yêu cầu của người dùng và hình ảnh ban đầu để lập kế hoạch đa bước.
  2. Act (Hành động): Mô hình tự động tạo và thực thi mã Python để thao tác trên ảnh (như cắt ảnh, xoay, đánh dấu – annotation) hoặc thực hiện các phép toán phức tạp.
  3. Observe (Quan sát): Hình ảnh sau khi được biến đổi sẽ được đưa ngược lại vào cửa sổ ngữ cảnh (context window). AI sẽ kiểm tra dữ liệu mới này để đưa ra kết luận cuối cùng.

Việc kích hoạt thực thi mã (code execution) giúp Gemini 3 Flash tăng từ 5-10% chất lượng trên hầu hết các bài kiểm tra thị giác chuẩn (vision benchmarks).

Những ứng dụng thực tế đột phá

1. Phóng to và Kiểm tra chi tiết (Zooming and Inspecting)

Gemini 3 Flash có thể tự động nhận diện khi nào cần phóng to vào các chi tiết nhỏ.

  • Ví dụ: PlanCheckSolver.com đã tăng 5% độ chính xác khi sử dụng Gemini 3 Flash để kiểm tra các bản vẽ xây dựng độ phân giải cao. AI tự cắt các phần mái nhà hoặc chi tiết kỹ thuật để đối chiếu với các quy chuẩn xây dựng phức tạp.

2. Chú thích hình ảnh thông minh (Image Annotation)

Thay vì chỉ mô tả bằng văn bản, mô hình có thể tương tác trực tiếp bằng cách vẽ lên ảnh. Khi bạn yêu cầu đếm số ngón tay hoặc nhận diện vật thể, AI sẽ tự vẽ các khung (bounding boxes) và gán nhãn để đảm bảo việc đếm không sai sót.

3. Toán học thị giác và Vẽ biểu đồ (Visual Math & Plotting)

Các mô hình ngôn ngữ lớn (LLM) thông thường hay gặp lỗi khi tính toán từ hình ảnh. Với Agentic Vision, Gemini 3 Flash sẽ trích xuất dữ liệu từ bảng biểu, viết mã Python để chuẩn hóa dữ liệu và xuất ra biểu đồ (như Matplotlib) cực kỳ chuyên nghiệp và chính xác.

Tương lai của Agentic Vision

Google không dừng lại ở đó. Trong tương lai, Agentic Vision sẽ:

  • Tự động hóa hoàn toàn: Các hành vi như xoay ảnh hoặc giải toán thị giác sẽ trở thành mặc định mà không cần gợi ý (prompt) từ người dùng.
  • Thêm công cụ mới: Tích hợp tìm kiếm web và tìm kiếm hình ảnh ngược (reverse image search).
  • Mở rộng quy mô: Áp dụng cho nhiều kích thước mô hình Gemini khác nhau ngoài dòng Flash.

Bắt đầu ngay cùng CloudAZ

Hiện tại, Agentic Vision đã có sẵn thông qua Gemini API trên Google AI StudioVertex AI.

Dành cho các nhà phát triển, bạn có thể kích hoạt tính năng này bằng cách bật “Code Execution” trong phần Tools. Dưới đây là ví dụ nhanh bằng Python:

from google import genai
from google.genai import types
client = genai.Client()
image = types.Part.from_uri(
    file_uri="https://url-anh-cua-ban.jpg",
    mime_type="image/jpeg",
)
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[image, "Hãy phóng to vào bảng mạch và cho tôi biết có bao nhiêu tụ điện?"],
    config=types.GenerateContentConfig(
        tools=[types.Tool(code_execution=types.ToolCodeExecution)]
    ),
)
print(response.text)

Với vai trò là Premier Partner của Google Cloud, CloudAZ luôn sẵn sàng hỗ trợ doanh nghiệp bạn triển khai các giải pháp AI tiên tiến nhất như Gemini 3 Flash để tối ưu hóa quy trình vận hành và nâng tầm trải nghiệm khách hàng.

Liên hệ với CloudAZ ngay hôm nay để nhận tư vấn chuyên sâu về các giải pháp AI trên Google Cloud!