Link to this section SAM 3: Phân đoạn mọi thứ với các khái niệm (Segment Anything with Concepts)#

SAM 3 (Segment Anything Model 3) là mô hình nền tảng do Meta phát hành cho Phân đoạn Khái niệm có thể nhắc (PCS – Promptable Concept Segmentation). Xây dựng dựa trên SAM 2, SAM 3 giới thiệu một khả năng hoàn toàn mới: phát hiện, phân đoạn và theo dõi tất cả các thực thể của một khái niệm trực quan được chỉ định bởi các gợi ý văn bản, mẫu hình ảnh hoặc cả hai. Không giống như các phiên bản SAM trước đây chỉ phân đoạn từng đối tượng đơn lẻ cho mỗi gợi ý, SAM 3 có thể tìm và phân đoạn mọi sự xuất hiện của một khái niệm ở bất kỳ đâu trong hình ảnh hoặc video, phù hợp với các mục tiêu từ vựng mở trong phân đoạn thực thể hiện đại.

SAM 3 hiện đã được tích hợp đầy đủ vào gói ultralytics, cung cấp hỗ trợ gốc cho phân đoạn khái niệm với các gợi ý văn bản, gợi ý mẫu hình ảnh và khả năng theo dõi video.

Link to this sectionTổng quan#

SAM 3 đạt hiệu suất tăng gấp 2 lần so với các hệ thống hiện có trong Phân đoạn Khái niệm có thể nhắc (Promptable Concept Segmentation) trong khi vẫn duy trì và cải thiện các khả năng của SAM 2 cho phân đoạn thị giác tương tác. Model này vượt trội trong việc phân đoạn từ vựng mở, cho phép người dùng chỉ định các khái niệm bằng cách sử dụng các cụm danh từ đơn giản (ví dụ: “xe buýt trường học màu vàng”, “mèo vằn”) hoặc bằng cách cung cấp các hình ảnh mẫu của đối tượng mục tiêu. Những khả năng này bổ sung cho các quy trình sẵn sàng cho sản xuất dựa trên các luồng công việc predict (dự đoán) và track (theo dõi) được tối ưu hóa.

Link to this sectionPhân đoạn Khái niệm có thể nhắc (PCS) là gì?#

Tác vụ PCS lấy một gợi ý khái niệm làm đầu vào và trả về các mặt nạ phân đoạn với định danh duy nhất cho tất cả các thực thể đối tượng khớp. Các gợi ý khái niệm có thể là:

Văn bản: Các cụm danh từ đơn giản như “quả táo đỏ” hoặc “người đội mũ”, tương tự như zero-shot learning
Mẫu hình ảnh: Các khung bao (bounding box) xung quanh các đối tượng ví dụ (tích cực hoặc tiêu cực) để tổng quát hóa nhanh
Kết hợp: Cả văn bản và mẫu hình ảnh cùng nhau để kiểm soát chính xác

Điều này khác với các gợi ý trực quan truyền thống (điểm, hộp, mặt nạ) vốn chỉ phân đoạn một thực thể đối tượng cụ thể duy nhất, như đã được phổ biến bởi họ SAM ban đầu.

Link to this sectionCác chỉ số hiệu suất chính#

Để biết bối cảnh về các chỉ số mô hình và đánh đổi trong sản xuất, hãy xem thông tin chi tiết về đánh giá mô hình và các chỉ số hiệu suất YOLO.

Link to this sectionKiến trúc#

SAM 3 bao gồm một bộ phát hiện (detector) và bộ theo dõi (tracker) cùng chia sẻ một xương sống thị giác Perception Encoder (PE). Thiết kế tách rời này tránh xung đột tác vụ trong khi cho phép cả phát hiện cấp độ hình ảnh và theo dõi cấp độ video, với giao diện tương thích với cách sử dụng Python và cách sử dụng CLI của Ultralytics.

Link to this sectionCác thành phần cốt lõi#

Bộ phát hiện: Kiến trúc dựa trên DETR để phát hiện khái niệm ở cấp độ hình ảnh
- Bộ mã hóa văn bản cho các gợi ý cụm danh từ
- Bộ mã hóa mẫu cho các gợi ý dựa trên hình ảnh
- Bộ mã hóa hợp nhất để điều kiện hóa các đặc trưng hình ảnh dựa trên gợi ý
- Presence head mới giúp tách biệt nhận dạng (“cái gì”) khỏi định vị (“ở đâu”)
- Mask head để tạo các mặt nạ phân đoạn thực thể
Bộ theo dõi: Phân đoạn video dựa trên bộ nhớ được thừa hưởng từ SAM 2
- Bộ mã hóa gợi ý, bộ giải mã mặt nạ, bộ mã hóa bộ nhớ
- Ngân hàng bộ nhớ để lưu trữ ngoại hình đối tượng qua các khung hình
- Giải quyết nhập nhằng thời gian được hỗ trợ bởi các kỹ thuật như bộ lọc Kalman trong các cài đặt đa đối tượng
Presence Token: Một token toàn cầu đã học giúp dự đoán liệu khái niệm mục tiêu có xuất hiện trong hình ảnh/khung hình hay không, cải thiện khả năng phát hiện bằng cách tách biệt nhận dạng khỏi định vị.

Link to this sectionNhững cải tiến chính#

Nhận dạng và Định vị Tách biệt: Presence head dự đoán sự hiện diện của khái niệm trên toàn cầu, trong khi các truy vấn đề xuất chỉ tập trung vào định vị, tránh các mục tiêu xung đột.
Gợi ý Khái niệm và Hình ảnh Hợp nhất: Hỗ trợ cả PCS (gợi ý khái niệm) và PVS (gợi ý trực quan như các cú nhấp chuột/hộp của SAM 2) trong một mô hình duy nhất.
Tinh chỉnh Mẫu Tương tác: Người dùng có thể thêm các mẫu hình ảnh tích cực hoặc tiêu cực để tinh chỉnh kết quả một cách lặp đi lặp lại, với việc mô hình tổng quát hóa sang các đối tượng tương tự thay vì chỉ sửa từng thực thể riêng lẻ.
Giải quyết Nhập nhằng Thời gian: Sử dụng điểm phát hiện masklet và nhắc lại định kỳ để xử lý các trường hợp bị che khuất, cảnh đông đúc và lỗi theo dõi trong video, phù hợp với các thực tiễn tốt nhất về phân đoạn và theo dõi thực thể.

Link to this sectionTập dữ liệu SA-Co#

SAM 3 được huấn luyện trên Segment Anything with Concepts (SA-Co), tập dữ liệu phân đoạn lớn nhất và đa dạng nhất của Meta cho đến nay, mở rộng ra ngoài các điểm chuẩn phổ biến như COCO và LVIS.

Link to this sectionDữ liệu huấn luyện#

Link to this sectionDữ liệu điểm chuẩn#

Điểm chuẩn đánh giá SA-Co chứa 214 nghìn cụm từ duy nhất trên 126 nghìn hình ảnh và video, cung cấp hơn 50 lần số lượng khái niệm so với các điểm chuẩn hiện có. Nó bao gồm:

SA-Co/Gold: 7 miền, được chú thích ba lần để đo lường giới hạn hiệu suất của con người
SA-Co/Silver: 10 miền, một chú thích của con người
SA-Co/Bronze và SA-Co/Bio: 9 tập dữ liệu hiện có được điều chỉnh cho phân đoạn khái niệm
SA-Co/VEval: Điểm chuẩn video với 3 miền (SA-V, YT-Temporal-1B, SmartGlasses)

Link to this sectionNhững cải tiến của công cụ dữ liệu#

Công cụ dữ liệu có sự tham gia của con người và mô hình có khả năng mở rộng của SAM 3 đạt được thông lượng chú thích gấp 2 lần thông qua:

Người chú thích AI: Các mô hình dựa trên Llama đề xuất các cụm danh từ đa dạng bao gồm các ví dụ tiêu cực khó
Người xác minh AI: LLM đa phương thức được tinh chỉnh xác minh chất lượng và tính đầy đủ của mặt nạ ở hiệu suất gần bằng con người
Khai thác chủ động (Active Mining): Tập trung nỗ lực của con người vào các trường hợp thất bại đầy thách thức nơi AI gặp khó khăn
Định hướng bản thể luận (Ontology-Driven): Tận dụng một bản thể luận lớn dựa trên Wikidata để bao phủ khái niệm

Link to this sectionCài đặt#

SAM 3 khả dụng trong Ultralytics phiên bản 8.3.237 trở lên. Cài đặt hoặc nâng cấp bằng:

Link to this sectionCách sử dụng SAM 3: Sự linh hoạt trong phân đoạn khái niệm#

SAM 3 hỗ trợ cả tác vụ Phân đoạn Khái niệm có thể nhắc (PCS) và Phân đoạn Trực quan có thể nhắc (PVS) thông qua các giao diện dự đoán khác nhau:

Link to this sectionCác tác vụ và mô hình được hỗ trợ#

Link to this sectionVí dụ về phân đoạn khái niệm#

Link to this sectionPhân đoạn với gợi ý văn bản#

Link to this sectionPhân đoạn bằng ảnh mẫu#

Link to this sectionSuy luận dựa trên đặc trưng để tối ưu hiệu suất#

Link to this sectionPhân đoạn khái niệm trong video#

Link to this sectionTheo dõi các khái niệm xuyên suốt video bằng bounding box#

Link to this sectionTheo dõi các khái niệm với câu lệnh văn bản#

Link to this sectionCác câu lệnh trực quan (Khả năng tương thích SAM 2)#

SAM 3 duy trì khả năng tương thích ngược hoàn toàn với các câu lệnh trực quan của SAM 2 cho việc phân đoạn đơn đối tượng:

Link to this sectionĐiểm chuẩn hiệu năng#

Link to this sectionPhân đoạn ảnh#

SAM 3 đạt được kết quả hiện đại nhất trên nhiều bộ kiểm chuẩn, bao gồm các bộ dữ liệu thực tế như LVIS và COCO for segmentation:

Khám phá các tùy chọn bộ dữ liệu để thử nghiệm nhanh trong Ultralytics datasets.

Link to this sectionHiệu suất phân đoạn video#

SAM 3 cho thấy những cải tiến đáng kể so với SAM 2 và các trạng thái tiền nhiệm trên các bộ kiểm chuẩn video như DAVIS 2017 và YouTube-VOS:

Link to this sectionThích ứng Few-Shot#

SAM 3 xuất sắc trong việc thích ứng với các miền mới chỉ với ít ví dụ, phù hợp cho các quy trình công việc data-centric AI:

Link to this sectionHiệu quả tinh chỉnh tương tác#

Việc sử dụng câu lệnh dựa trên khái niệm của SAM 3 với các mẫu hội tụ nhanh hơn nhiều so với câu lệnh trực quan:

Link to this sectionĐộ chính xác đếm đối tượng#

SAM 3 cung cấp khả năng đếm chính xác bằng cách phân đoạn tất cả các thực thể, một yêu cầu phổ biến trong đếm đối tượng:

Link to this sectionSo sánh SAM 3, SAM 2 và YOLO#

Tại đây chúng tôi so sánh khả năng của SAM 3 với các model SAM 2 và YOLO26:

Tốc độ được đo trên NVIDIA RTX PRO 6000 với torch==2.9.1 và ultralytics==8.4.19.

Điểm chính:

SAM 3: Tốt nhất cho phân đoạn khái niệm từ vựng mở, tìm tất cả các thực thể của một khái niệm bằng văn bản hoặc gợi ý mẫu
SAM 2: Tốt nhất cho phân đoạn tương tác một đối tượng trong hình ảnh và video với gợi ý hình học
YOLO26: Tốt nhất cho phân đoạn tốc độ cao, thời gian thực với suy luận end-to-end không cần NMS, có thể xuất sang nhiều định dạng để triển khai trên GPU, CPU và thiết bị biên

Link to this sectionSo sánh SAM với YOLO#

So sánh SAM 3, SAM 2, SAM, MobileSAM và FastSAM với các model phân đoạn Ultralytics YOLO (YOLOv8, YOLO11, YOLO26) về kích thước, tham số và tốc độ suy luận GPU:

So sánh này cho thấy sự khác biệt đáng kể về kích thước và tốc độ model giữa các biến thể SAM và các model phân đoạn YOLO. Trong khi SAM cung cấp các khả năng phân đoạn tự động độc đáo, các model YOLO, đặc biệt là YOLOv8n-seg, YOLO11n-seg và YOLO26n-seg, nhỏ hơn, nhanh hơn và hiệu quả tính toán hơn đáng kể.

Các thử nghiệm được chạy trên NVIDIA RTX PRO 6000 với 96GB VRAM sử dụng torch==2.9.1 và ultralytics==8.4.19. Để tái lập thử nghiệm này:

Link to this sectionSố liệu đánh giá#

SAM 3 giới thiệu các số liệu mới được thiết kế cho tác vụ PCS, bổ sung cho các phép đo quen thuộc như điểm F1, độ chính xác và độ hồi tưởng.

Link to this sectionClassification-Gated F1 (CGF1)#

Số liệu chính kết hợp giữa bản địa hóa và phân loại:

CGF1 = 100 × pmF1 × IL_MCC

Trong đó:

pmF1 (Positive Macro F1): Đo lường chất lượng bản địa hóa trên các ví dụ dương tính
IL_MCC (Image-Level Matthews Correlation Coefficient): Đo lường độ chính xác phân loại nhị phân (“khái niệm có hiện diện không?”)

Link to this sectionTại sao lại là những số liệu này?#

Các số liệu AP truyền thống không tính đến hiệu chuẩn, khiến các model khó sử dụng trong thực tế. Bằng cách chỉ đánh giá các dự đoán có độ tin cậy trên 0.5, các số liệu của SAM 3 thực thi hiệu chuẩn tốt và bắt chước các mô hình sử dụng trong thực tế trong các vòng lặp predict và track tương tác.

Link to this sectionCác điểm loại bỏ và thông tin chi tiết chính#

Link to this sectionTác động của Presence Head#

Presence head tách biệt việc nhận diện khỏi bản địa hóa, mang lại những cải tiến đáng kể:

Presence head cung cấp tăng 5.7 CGF1 (+9.9%), cải thiện chính khả năng nhận diện (IL_MCC +6.5%).

Link to this sectionTác động của Hard Negatives#

Các ví dụ phủ định khó (hard negatives) rất quan trọng đối với khả năng nhận diện theo từ vựng mở, giúp cải thiện IL_MCC lên 54.5% (0.44 → 0.68).

Link to this sectionMở rộng quy mô dữ liệu huấn luyện#

Các chú thích chất lượng cao do con người thực hiện mang lại sự cải thiện lớn so với chỉ sử dụng dữ liệu tổng hợp hoặc dữ liệu bên ngoài. Để biết thông tin cơ bản về thực tiễn chất lượng dữ liệu, hãy xem thu thập và chú thích dữ liệu.

Link to this sectionỨng dụng#

Khả năng phân đoạn theo khái niệm của SAM 3 cho phép áp dụng các trường hợp sử dụng mới:

Kiểm duyệt nội dung: Tìm tất cả các trường hợp của loại nội dung cụ thể trên các thư viện phương tiện
Thương mại điện tử: Phân đoạn tất cả các sản phẩm thuộc một loại nhất định trong hình ảnh danh mục, hỗ trợ auto-annotation (tự động chú thích)
Hình ảnh y tế: Xác định tất cả các trường hợp xảy ra của các loại mô hoặc bất thường cụ thể
Hệ thống tự hành: Theo dõi tất cả các trường hợp của biển báo giao thông, người đi bộ hoặc phương tiện theo danh mục
Phân tích video: Đếm và theo dõi tất cả những người đang mặc quần áo cụ thể hoặc thực hiện hành động
Chú thích tập dữ liệu: Nhanh chóng chú thích tất cả các trường hợp của các danh mục đối tượng hiếm
Nghiên cứu khoa học: Định lượng và phân tích tất cả các mẫu phù hợp với các tiêu chí cụ thể

Link to this sectionSAM 3 Agent: Khả năng suy luận ngôn ngữ mở rộng#

SAM 3 có thể được kết hợp với các Mô hình Ngôn ngữ Lớn Đa phương thức (MLLMs) để xử lý các truy vấn phức tạp đòi hỏi suy luận, tương tự về ý tưởng với các hệ thống từ vựng mở như OWLv2 và T-Rex.

Link to this sectionHiệu suất trên các tác vụ suy luận#

Link to this sectionVí dụ về các truy vấn phức tạp#

SAM 3 Agent có thể xử lý các truy vấn đòi hỏi suy luận:

“Những người đang ngồi nhưng không cầm hộp quà trên tay”
“Con chó gần máy ảnh nhất mà không đeo vòng cổ”
“Các vật thể màu đỏ lớn hơn bàn tay của người đó”

MLLM đề xuất các truy vấn cụm danh từ đơn giản cho SAM 3, phân tích các mask được trả về và lặp lại cho đến khi hài lòng.

Link to this sectionHạn chế#

Mặc dù SAM 3 đại diện cho một bước tiến lớn, nhưng nó vẫn có những hạn chế nhất định:

Độ phức tạp của cụm từ: Phù hợp nhất với các cụm danh từ đơn giản; các biểu thức tham chiếu dài hoặc suy luận phức tạp có thể yêu cầu tích hợp MLLM
Xử lý sự mơ hồ: Một số khái niệm vẫn vốn dĩ mơ hồ (ví dụ: “cửa sổ nhỏ”, “căn phòng ấm cúng”)
Yêu cầu tính toán: Lớn hơn và chậm hơn so với các model phát hiện chuyên dụng như YOLO
Phạm vi từ vựng: Tập trung vào các khái niệm hình ảnh nguyên tử; suy luận thành phần bị hạn chế nếu không có sự hỗ trợ của MLLM
Khái niệm hiếm: Hiệu suất có thể giảm đối với các khái niệm cực kỳ hiếm hoặc có độ chi tiết cao không được thể hiện rõ trong dữ liệu huấn luyện

Link to this sectionTrích dẫn#

Link to this sectionCâu hỏi thường gặp#

Link to this sectionSAM 3 được phát hành khi nào?#

SAM 3 được Meta phát hành vào ngày 20 tháng 11 năm 2025 và được tích hợp hoàn toàn vào Ultralytics kể từ phiên bản 8.3.237 (PR #22897). Hỗ trợ đầy đủ có sẵn cho chế độ dự đoán và chế độ theo dõi.

Link to this sectionSAM 3 có được tích hợp vào Ultralytics không?#

Có! SAM 3 được tích hợp hoàn toàn vào gói Python Ultralytics, bao gồm phân đoạn khái niệm, gợi ý hình ảnh kiểu SAM 2 và theo dõi video đa đối tượng. SAM 3 cũng hỗ trợ tính năng chú thích thông minh trên Ultralytics Platform, nơi bạn có thể chú thích hình ảnh chỉ với vài cú nhấp chuột.

Link to this sectionPhân đoạn khái niệm có thể gợi ý (PCS) là gì?#

PCS là một tác vụ mới được giới thiệu trong SAM 3 giúp phân đoạn tất cả các trường hợp của một khái niệm hình ảnh trong hình ảnh hoặc video. Không giống như phân đoạn truyền thống nhắm mục tiêu vào một trường hợp đối tượng cụ thể, PCS tìm thấy mọi sự xuất hiện của một danh mục. Ví dụ:

Gợi ý văn bản: “xe buýt trường học màu vàng” → phân đoạn tất cả xe buýt trường học màu vàng trong cảnh
Ví dụ hình ảnh: Hộp bao quanh một con chó → phân đoạn tất cả con chó trong ảnh
Kết hợp: “con mèo có sọc” + hộp ví dụ → phân đoạn tất cả con mèo có sọc khớp với ví dụ

Xem thông tin cơ bản liên quan về phát hiện đối tượng và phân đoạn đối tượng.

Link to this sectionSAM 3 khác SAM 2 như thế nào?#

SAM 3 duy trì khả năng tương thích ngược với gợi ý hình ảnh SAM 2 trong khi bổ sung các khả năng dựa trên khái niệm.

Link to this sectionCác tập dữ liệu nào được sử dụng để huấn luyện SAM 3?#

SAM 3 được huấn luyện trên tập dữ liệu Segment Anything with Concepts (SA-Co):

Dữ liệu huấn luyện:

5,2 triệu hình ảnh với 4 triệu cụm danh từ duy nhất (SA-Co/HQ) – chú thích chất lượng cao từ con người
52,5 nghìn video với 24,8 nghìn cụm danh từ duy nhất (SA-Co/VIDEO)
1,4 tỷ mask tổng hợp trên 38 triệu cụm danh từ (SA-Co/SYN)
15 tập dữ liệu bên ngoài được làm giàu với các hard negative (SA-Co/EXT)

Dữ liệu Benchmark:

214 nghìn khái niệm duy nhất trên 126 nghìn hình ảnh/video
Số lượng khái niệm nhiều gấp 50 lần so với các benchmark hiện có (ví dụ: LVIS có khoảng 4 nghìn khái niệm)
Chú thích bộ ba trên SA-Co/Gold để đo lường giới hạn hiệu suất của con người

Quy mô và sự đa dạng khổng lồ này mang lại khả năng tổng quát hóa zero-shot vượt trội của SAM 3 trên các khái niệm mở (open-vocabulary).

Link to this sectionSAM 3 so với YOLO26 trong phân đoạn (segmentation) như thế nào?#

SAM 3 và YOLO26 phục vụ các trường hợp sử dụng khác nhau:

Ưu điểm của SAM 3:

Open-vocabulary: Phân đoạn bất kỳ khái niệm nào thông qua text prompt mà không cần huấn luyện
Zero-shot: Hoạt động ngay lập tức với các danh mục mới
Interactive: Cơ chế tinh chỉnh dựa trên ví dụ (exemplar) có thể tổng quát hóa sang các đối tượng tương tự
Concept-based: Tự động tìm tất cả các instance của một danh mục
Độ chính xác: 47.0 AP trên tác vụ instance segmentation LVIS zero-shot

Ưu điểm của YOLO26:

Tốc độ: Suy luận nhanh hơn nhiều bậc với thiết kế end-to-end không cần NMS
Hiệu quả: Mô hình nhỏ hơn 539 lần (6.4MB so với 3.45GB)
Tiết kiệm tài nguyên: Chạy trên các thiết bị edge và mobile
Real-time: Tối ưu hóa cho triển khai production

Khuyến nghị:

Sử dụng SAM 3 cho các tác vụ phân đoạn linh hoạt, open-vocabulary khi bạn cần tìm tất cả các instance của khái niệm được mô tả bằng văn bản hoặc ví dụ
Sử dụng YOLO26 cho các triển khai production tốc độ cao, nơi các danh mục đã được biết trước
Sử dụng SAM 2 cho phân đoạn đơn đối tượng tương tác với các prompt hình học

Link to this sectionSAM 3 có thể xử lý các truy vấn ngôn ngữ phức tạp không?#

SAM 3 được thiết kế cho các cụm danh từ đơn giản (ví dụ: “quả táo đỏ”, “người đội mũ”). Đối với các truy vấn phức tạp yêu cầu suy luận, hãy kết hợp SAM 3 với một MLLM dưới dạng SAM 3 Agent:

Truy vấn đơn giản (SAM 3 gốc):

“xe buýt trường học màu vàng”
“con mèo có sọc”
“người đội mũ đỏ”

Truy vấn phức tạp (SAM 3 Agent với MLLM):

“Người đang ngồi nhưng không cầm hộp quà”
“Chú chó ở gần camera nhất mà không có vòng cổ”
“Các vật thể màu đỏ lớn hơn bàn tay của người đó”

SAM 3 Agent đạt 76.0 gIoU trên tập validation ReasonSeg (so với mức tốt nhất trước đó là 65.0, cải thiện +16,9%) bằng cách kết hợp khả năng phân đoạn của SAM 3 với năng lực suy luận của MLLM.

Link to this sectionĐộ chính xác của SAM 3 so với hiệu suất con người là bao nhiêu?#

Trên benchmark SA-Co/Gold với bộ ba chú thích từ con người:

Giới hạn dưới của con người: 74.2 CGF1 (người chú thích thận trọng nhất)
Hiệu suất SAM 3: 65.0 CGF1
Thành tựu: 88% giới hạn dưới ước tính của con người
Giới hạn trên của con người: 81.4 CGF1 (người chú thích tự do nhất)

SAM 3 đạt hiệu suất mạnh mẽ tiệm cận độ chính xác ở mức con người trong phân đoạn khái niệm open-vocabulary, với khoảng cách chủ yếu nằm ở các khái niệm mơ hồ hoặc mang tính chủ quan (ví dụ: “cửa sổ nhỏ”, “căn phòng ấm cúng”).