Image Segmentation

Phân đoạn hình ảnh là một kỹ thuật tinh vi trong computer vision (CV), liên quan đến việc phân chia một hình ảnh kỹ thuật số thành nhiều nhóm nhỏ các pixel, thường được gọi là các phân đoạn hoặc vùng hình ảnh. Không giống như image classification tiêu chuẩn vốn gán một nhãn duy nhất cho toàn bộ hình ảnh, phân đoạn phân tích dữ liệu trực quan ở cấp độ chi tiết hơn nhiều bằng cách gán một nhãn lớp cụ thể cho từng pixel riêng lẻ. Quá trình này tạo ra một bản đồ cấp pixel chính xác, cho phép các mô hình artificial intelligence (AI) không chỉ hiểu được những đối tượng nào đang hiện diện mà còn biết chính xác vị trí và ranh giới cụ thể của chúng.

Cơ chế phân tích cấp pixel

Để đạt được sự hiểu biết có độ trung thực cao này, các mô hình phân đoạn thường tận dụng các kiến trúc deep learning (DL), đặc biệt là Convolutional Neural Networks (CNNs). Các mạng này hoạt động như những trình trích xuất tính năng mạnh mẽ, nhận diện các mẫu như cạnh, kết cấu và hình dạng phức tạp. Các kiến trúc phân đoạn truyền thống, chẳng hạn như U-Net cổ điển, thường sử dụng cấu trúc bộ mã hóa-giải mã (encoder-decoder). Bộ mã hóa nén hình ảnh đầu vào để nắm bắt ngữ cảnh ngữ nghĩa, trong khi bộ giải mã tái tạo các chi tiết không gian để xuất ra segmentation mask cuối cùng.

Những tiến bộ hiện đại đã dẫn đến các kiến trúc thời gian thực như YOLO26, được phát hành vào tháng 1 năm 2026. Các mô hình này tích hợp khả năng phân đoạn trực tiếp vào một quy trình end-to-end, cho phép xử lý tốc độ cao trên nhiều loại phần cứng khác nhau, từ GPUs đám mây đến các thiết bị biên.

Các loại phân đoạn chính

Tùy thuộc vào mục tiêu cụ thể của dự án, các nhà phát triển thường lựa chọn giữa ba kỹ thuật phân đoạn chính:

Semantic Segmentation: Phương pháp này phân loại các pixel dựa trên danh mục của chúng nhưng không phân biệt giữa các đối tượng riêng biệt cùng lớp. Ví dụ, trong một satellite image analysis, tất cả các pixel đại diện cho “rừng” sẽ được tô màu xanh lục, coi toàn bộ khu rừng là một thực thể duy nhất.
Instance Segmentation: Kỹ thuật này nhận diện và tách biệt các đối tượng riêng lẻ được quan tâm. Trong một khung cảnh đường phố đông đúc, instance segmentation sẽ tạo ra một mask duy nhất cho “Xe A”, “Xe B” và “Người đi bộ A”, cho phép hệ thống đếm và theo dõi các thực thể cụ thể. Đây là tính năng cốt lõi của dòng mô hình Ultralytics YOLO26.
Panoptic Segmentation: Một phương pháp lai kết hợp khả năng bao phủ của semantic segmentation với độ chính xác của instance segmentation. Nó gán một nhãn cho mọi pixel, phân biệt các yếu tố nền vô định hình (như bầu trời và đường đi) đồng thời nhận diện duy nhất các đối tượng tiền cảnh có thể đếm được.

Sự khác biệt so với nhận diện đối tượng

Việc phân biệt phân đoạn với object detection là rất quan trọng. Trong khi các thuật toán nhận diện định vị các mục bằng cách sử dụng bounding box hình chữ nhật, chúng vẫn bao gồm các pixel nền bên trong khung đó. Phân đoạn cung cấp biểu diễn chính xác và chặt chẽ hơn bằng cách lần theo đường viền hoặc đa giác chính xác của đối tượng. Sự khác biệt này rất quan trọng đối với các ứng dụng như robotic grasping, nơi cánh tay robot phải biết hình học chính xác của một mục để thao tác mà không gây va chạm.

Các ứng dụng thực tế

Độ chính xác mà phân đoạn hình ảnh mang lại thúc đẩy sự đổi mới trên nhiều ngành công nghiệp khác nhau:

Chẩn đoán y tế: Trong lĩnh vực medical image analysis, phân đoạn là yếu tố thiết yếu để phác thảo các cấu trúc giải phẫu. Các thuật toán phân tích MRI scans để phân định khối u hoặc ranh giới cơ quan, cho phép bác sĩ phẫu thuật tính toán thể tích chính xác và lập kế hoạch thủ thuật với độ chính xác cứu người.
Lái xe tự hành: Các phương tiện tự lái dựa vào phân đoạn để điều hướng an toàn. Bằng cách xử lý các luồng video, máy tính của xe có thể phân biệt drivable lanes với vỉa hè và chướng ngại vật. Các tổ chức tiêu chuẩn như SAE International xác định các cấp độ tự hành đòi hỏi khả năng nhận thức môi trường có độ trung thực cao này.
Nông nghiệp chính xác: Trong AI in agriculture, phân đoạn giúp các hệ thống robot nhận diện cỏ dại giữa các loại cây trồng. Bằng cách tạo ra mask cho các lá cây cụ thể, các máy phun tự động có thể nhắm mục tiêu chỉ vào loài xâm lấn, giúp giảm đáng kể việc sử dụng thuốc diệt cỏ.

Triển khai phân đoạn với YOLO26

Các nhà phát triển có thể triển khai instance segmentation hiệu quả bằng cách sử dụng gói ultralytics Python. Ví dụ sau đây sử dụng YOLO26 model hiện đại nhất, được tối ưu hóa cho cả tốc độ và độ chính xác.

Để đạt được hiệu suất cao trên các tác vụ tùy chỉnh, các nhóm thường cần quản lý training data chất lượng cao. Ultralytics Platform đơn giản hóa quá trình này bằng cách cung cấp các công cụ để chú thích hình ảnh bằng mask đa giác, quản lý tập dữ liệu và huấn luyện mô hình trên đám mây, giúp hợp lý hóa toàn bộ vòng đời machine learning operations (MLOps). Các thư viện như OpenCV cũng thường được sử dụng cùng với các mô hình này để tiền xử lý hình ảnh và hậu xử lý các mask thu được.