DINOv2 Phần 1


DINOv2: Học Đặc Trưng Thị Giác Không Cần Giám Sát

Lĩnh vực thị giác máy tính đang chứng kiến sự trỗi dậy của các mô hình nền tảng (foundation models), tương tự như trong xử lý ngôn ngữ tự nhiên (NLP). Những mô hình này hướng đến việc tạo ra các đặc trưng thị giác đa năng, có thể áp dụng trên nhiều phân phối và tác vụ hình ảnh khác nhau mà không cần fine-tuning (tinh chỉnh). Thành công gần đây của học không giám sát (unsupervised learning) trong NLP đã mở đường cho những tiến bộ tương tự trong thị giác máy tính. Bài viết này sẽ đề cập đến DINOv2, một phương pháp tận dụng học tự giám sát (self-supervised learning) để tạo ra các đặc trưng thị giác mạnh mẽ.

![Hình ảnh trực quan PCA của DINOv2](Đường dẫn hình ảnh)

Hình 1: Hình ảnh trực quan phân tích thành phần chính (PCA) của DINOv2 (Nguồn: https://github.com/facebookresearch/dinov2).

Tổng Quan về DINOv2

Trong phần này, chúng ta sẽ khám phá các thành phần khác nhau của DINOv2, bao gồm kiến trúc mô hình, bộ dữ liệu và kết quả.

Kiến Trúc DINOv2

Các mô hình DINOv2 có 4 kích thước và kiến trúc khác nhau:

![Bảng kiến trúc và siêu tham số của DINOv2](Đường dẫn hình ảnh)

Hình 2: Kiến trúc và siêu tham số huấn luyện của các mô hình DINOv2.

Tất cả các mô hình đều dựa trên một phiên bản cải tiến của mô hình Vision Transformer (ViT) gốc.

  • ViT-S/14 (Distilled): Mô hình này có 384 chiều embedding, 6 heads và 12 blocks. Nó được thiết kế cho các ứng dụng nhẹ và được “chưng cất” từ các mô hình lớn hơn để duy trì hiệu suất cao với độ phức tạp giảm.
  • ViT-B/14 (Distilled): Với 768 chiều embedding, 12 heads và 18 blocks, mô hình này cân bằng giữa hiệu suất và hiệu quả tính toán.
  • ViT-L/14 (Distilled): Mô hình lớn hơn này có 1024 chiều embedding, 16 heads và 24 blocks. Nó cung cấp hiệu suất nâng cao với chi phí tài nguyên tính toán tăng lên.
  • ViT-L/14 (From Scratch): Tương tự phiên bản “chưng cất” nhưng được huấn luyện từ đầu, mô hình này sử dụng mạng feed-forward SwiGLU để cải thiện khả năng trích xuất đặc trưng.
  • ViT-g/14 (From Scratch): Mô hình lớn nhất trong họ DINOv2, với 1536 chiều embedding, 24 heads và 40 blocks. Nó được tối ưu hóa cho các ứng dụng hiệu suất cao và là mô hình chính được sử dụng để “chưng cất” kiến thức.

Lưu ý: Các mô hình DINOv2 Small và Base không bao giờ được huấn luyện từ đầu bởi các tác giả. Thay vào đó, chúng được “chưng cất” từ mô hình DINOv2 Giant.

Xử Lý và Tuyển Chọn Dữ Liệu

Một trong những điểm mới của DINOv2 là quy trình xử lý dữ liệu phức tạp. Các tác giả đã phát triển một hệ thống tự động để lọc và cân bằng lại các bộ dữ liệu từ một bộ sưu tập lớn các hình ảnh chưa được kiểm duyệt. Quy trình này, lấy cảm hứng từ các phương pháp tuyển chọn dữ liệu NLP, sử dụng sự tương đồng dữ liệu thay vì siêu dữ liệu bên ngoài, loại bỏ nhu cầu gán nhãn thủ công. Bộ dữ liệu kết quả, LVD-142M, bao gồm 142 triệu hình ảnh đa dạng, được tuyển chọn cẩn thận để đảm bảo các đặc trưng chất lượng cao.

Huấn Luyện Tự Giám Sát Phân Biệt

DINOv2 sử dụng một phương pháp tự giám sát phân biệt kết hợp các yếu tố từ DINO và iBOT losses, cùng với kỹ thuật centering từ SwAV. Cách tiếp cận này được thiết kế để ổn định và tăng tốc quá trình huấn luyện, đặc biệt khi mở rộng quy mô cho các mô hình và bộ dữ liệu lớn hơn. Quá trình huấn luyện bao gồm một số cải tiến kỹ thuật, chẳng hạn như KoLeo regularizer và một giai đoạn huấn luyện độ phân giải cao ngắn, giúp nâng cao hiệu suất và tính mạnh mẽ của mô hình.

Triển Khai Hiệu Quả

Việc triển khai DINOv2 bao gồm một số tối ưu hóa để đáp ứng nhu cầu tính toán của việc huấn luyện các mô hình lớn. Chúng bao gồm một phiên bản tùy chỉnh của FlashAttention, sequence packing và một phiên bản cải tiến của stochastic depth. Ngoài ra, việc sử dụng Fully-Sharded Data Parallel (FSDP) giúp giảm đáng kể lượng bộ nhớ và chi phí giao tiếp, cho phép mở rộng quy mô hiệu quả trên nhiều GPU.

Tôi đặc biệt khuyên bạn nên xem qua Phần 5 của bài báo, phần này trình bày chi tiết về việc triển khai hiệu quả quy trình huấn luyện và mô hình hóa.

Nghiên Cứu Ablation và Xác Thực Thực Nghiệm

Cải Tiến Công Thức Huấn Luyện

Các tác giả đã tiến hành các nghiên cứu ablation rộng rãi để xác thực hiệu quả của từng thành phần trong công thức huấn luyện của họ. Những nghiên cứu này cho thấy rằng mỗi sửa đổi, chẳng hạn như LayerScale, Stochastic Depth và KoLeo regularizer, đều cải thiện hiệu suất trên nhiều benchmarks khác nhau. Kết quả nhất quán trên các kích thước mô hình và bộ dữ liệu khác nhau, chứng minh tính mạnh mẽ của phương pháp DINOv2.

Nguồn Dữ Liệu Tiền Huấn Luyện

Chất lượng của dữ liệu tiền huấn luyện rất quan trọng đối với hiệu suất của các đặc trưng thị giác. Nghiên cứu ablation so sánh LVD-142M với ImageNet-22k và dữ liệu chưa được kiểm duyệt cho thấy rằng dữ liệu được tuyển chọn vượt trội hơn đáng kể so với dữ liệu chưa được kiểm duyệt. Huấn luyện trên LVD-142M dẫn đến hiệu suất vượt trội trên nhiều benchmarks, làm nổi bật tầm quan trọng của sự đa dạng và chất lượng dữ liệu.

Các tác giả đã tạo ra dữ liệu chưa được kiểm duyệt bằng cách lấy mẫu ngẫu nhiên 142 triệu hình ảnh từ cùng một nguồn với LVD-142M.

Kích Thước Mô Hình và Mở Rộng Dữ Liệu

Nghiên cứu về kích thước mô hình so với quy mô dữ liệu cho thấy rằng khi các mô hình lớn hơn, việc huấn luyện trên LVD-142M ngày càng có lợi so với ImageNet-22k. Điều này chỉ ra những lợi ích của việc mở rộng mô hình và dữ liệu khi thực hiện huấn luyện tự giám sát.

Các Thành Phần Loss

Việc ablation các thành phần loss cụ thể, chẳng hạn như KoLeo loss và masked image modeling term, cung cấp thông tin chi tiết về đóng góp riêng lẻ của chúng. KoLeo loss cải thiện các tác vụ tìm kiếm lân cận gần nhất, trong khi masked image modeling term (từ iBOT) nâng cao các tác vụ dự đoán dày đặc như phân vùng.

![Kết quả của nghiên cứu ablation thành phần loss](Đường dẫn hình ảnh)

Hình 3: Kết quả của nghiên cứu ablation thành phần loss.

Chưng Cất Kiến Thức

Đối với các mô hình nhỏ hơn, DINOv2 sử dụng quy trình chưng cất kiến thức, trong đó các mô hình nhỏ hơn được huấn luyện để mô phỏng đầu ra của các mô hình lớn hơn.

Kết quả cho thấy rằng các mô hình “chưng cất” nhỏ hơn vượt trội hơn so với các mô hình được huấn luyện từ đầu trên nhiều benchmarks. Quá trình chưng cất đảm bảo rằng các mô hình nhỏ hơn được hưởng lợi từ hiệu suất của các mô hình lớn hơn.

![So sánh chưng cất kiến thức so với huấn luyện từ đầu](Đường dẫn hình ảnh)

Hình 5: So sánh kết quả giữa chưng cất kiến thức và huấn luyện từ đầu của các mô hình DINOv2.

Kết Quả và Benchmarks

Phân Loại ImageNet

So với các phương pháp trước đây, DINOv2 thể hiện hiệu suất được cải thiện trên bộ dữ liệu phân loại ImageNet-1k. Mô hình đạt được cải thiện độ chính xác top-1 hơn 4% so với iBOT.

Ngoài ra, các đặc trưng cho thấy khả năng tổng quát hóa tốt hơn trên các bộ thử nghiệm thay thế như ImageNet-Real và ImageNet-V2, cho thấy tính mạnh mẽ cao hơn.

![So sánh kết quả phân loại ImageNet](Đường dẫn hình ảnh)

Hình 6: So sánh kết quả phân loại ImageNet giữa DINOv2 và các công trình trước đây.

Phân Loại Hình Ảnh và Video

Các tác giả đánh giá các đặc trưng DINOv2 trên một số benchmarks phân loại hình ảnh và video, bao gồm iNaturalist, Places205, UCF-101, Kinetics-400 và Something-Something v2.

Các mô hình vượt trội hơn các phương pháp tự giám sát hiện có và cạnh tranh với các mô hình được giám sát yếu.

![Kết quả phân loại hình ảnh và video](Đường dẫn hình ảnh)

Hình 7: Kết quả phân loại hình ảnh và video.

Nhận Dạng Instance

Nhận dạng ở cấp độ instance bao gồm các tác vụ như nhận dạng địa danh và truy xuất tác phẩm nghệ thuật. Các mô hình DINOv2 đạt được những cải thiện đáng kể về độ chính xác trung bình (mAP) trên nhiều benchmarks, chứng minh hiệu quả của chúng trong cả các tác vụ nhận dạng ở cấp độ danh mục và cấp độ instance.

![So sánh kết quả nhận dạng instance](Đường dẫn hình ảnh)

Hình 8: So sánh kết quả nhận dạng instance giữa DINOv2 và các phương pháp tự giám sát khác.

Với các tác vụ trong thế giới thực ngày nay, nơi các ứng dụng RAG (Retrieval-Augmented Generation) đã trở nên quan trọng, các đặc trưng từ DINOv2 có thể được sử dụng để tìm kiếm embedding hình ảnh.

Phân Vùng Ngữ Nghĩa và Ước Tính Độ Sâu

Do quá trình tiền huấn luyện tự giám sát mạnh mẽ, các đặc trưng DINOv2 cũng hoạt động tốt trên các tác vụ dự đoán dày đặc như phân vùng ngữ nghĩa và ước tính độ sâu.

So với các kiến trúc và chế độ huấn luyện trước đây, các mô hình DINOv2 hoạt động tốt hơn trên các bộ dữ liệu như ADE20k, Cityscapes và NYU Depth V2.

![So sánh kết quả phân vùng ngữ nghĩa và ước tính độ sâu](Đường dẫn hình ảnh)

Hình 9: So sánh kết quả phân vùng ngữ nghĩa và ước tính độ sâu giữa các kỹ thuật học tự giám sát khác nhau.

Kết Quả Định Tính

Phân Vùng Ngữ Nghĩa và Ước Tính Độ Sâu

Các kết quả định tính từ các tác vụ phân vùng ngữ nghĩa và ước tính độ sâu minh họa hiệu quả của các đặc trưng DINOv2. Các segmentation mask được tạo ra bởi linear classifier chính xác hơn so với OpenCLIP. Tương tự, các kết quả ước tính độ sâu mượt mà và chính xác hơn.

![Phân tích định tính kết quả phân vùng ngữ nghĩa](Đường dẫn hình ảnh)

Hình 10: Phân tích định tính kết quả phân vùng ngữ nghĩa của DINOv2 trên các bộ dữ liệu benchmark và các mẫu ngoài phân phối.

Hơn nữa, kết quả phân vùng và ước tính độ sâu trên các mẫu ngoài phân phối như tranh vẽ và phác thảo ủng hộ bằng chứng rằng các đặc trưng mạnh mẽ của DINOv2 có thể chuyển giao giữa các miền.

PCA của Đặc Trưng Patch

Phân tích thành phần chính (PCA) của các đặc trưng patch cho thấy rằng DINOv2 có thể tách hiệu quả các đối tượng tiền cảnh khỏi nền và khớp các phần của đối tượng trên các hình ảnh khác nhau.

![Hình ảnh trực quan các thành phần PCA của DINOv2](Đường dẫn hình ảnh)

Hình 11: Hình ảnh trực quan các thành phần PCA của DINOv2.

Điều này có thể được coi là một thuộc tính nổi bật vì DINOv2 không được huấn luyện rõ ràng để phân tích các phần của đối tượng.

Khớp Patch

Các thử nghiệm khớp patch đã chứng minh khả năng của mô hình trong việc nắm bắt các vùng ngữ nghĩa và khớp chúng trên các hình ảnh khác nhau.

![Khớp đặc trưng ở cấp độ patch](Đường dẫn hình ảnh)

Hình 12: Khớp đặc trưng ở cấp độ patch giữa các loại hình ảnh khác nhau bằng cách sử dụng các đặc trưng được học của DINOv2.

Những thuộc tính như vậy có thể được sử dụng để truy xuất hình ảnh trong các điều kiện phức tạp và đa dạng.

Công Bằng và Thiên Vị

Thiên vị đã là một chủ đề nóng trong thế giới AI trong nhiều năm nay. Các cộng đồng, quốc gia và khu vực địa lý ít được đại diện thường đánh lừa các mô hình đưa ra các câu trả lời thiên vị. DINOv2, mặc dù là một bước tiến theo hướng này, vẫn chưa hoàn hảo.

Công Bằng Địa Lý

Việc đánh giá công bằng địa lý trên bộ dữ liệu Dollar Street cho thấy rằng các mô hình DINOv2 công bằng hơn một chút trên các khu vực và mức thu nhập so với các phương pháp trước đây. Tuy nhiên, những khác biệt đáng kể về hiệu suất đã được quan sát thấy, đặc biệt là ở Châu Phi, cho thấy sự thiên vị đối với các nước phương Tây.

![Phân tích công bằng địa lý](Đường dẫn hình ảnh)

Hình 13: Phân tích công bằng địa lý.

Giới Tính, Màu Da và Tuổi

Phân tích về các liên kết nhãn trên các nhóm giới tính, màu da và độ tuổi cho thấy rằng các mô hình DINOv2 thường phân loại hình ảnh là “Người” mà không có sự khác biệt đáng kể giữa các nhóm. Các mô hình hiếm khi dự đoán các nhãn có hại, cho thấy sự thiếu thiên vị rõ ràng đối với các nhóm cụ thể.

![Phân tích công bằng về thiên vị giới tính, màu da và tuổi](Đường dẫn hình ảnh)

Hình 14: Phân tích công bằng về thiên vị giới tính, màu da và tuổi cho DINOv2.

Kết Luận

DINOv2 đã chứng minh tiềm năng của học tự giám sát trong việc tạo ra các đặc trưng thị giác đa năng, cạnh tranh với các mô hình được giám sát yếu. Hiệu suất mạnh mẽ của mô hình trên nhiều tác vụ khác nhau, kết hợp với việc triển khai hiệu quả và lượng khí thải carbon thấp, khiến nó trở thành một công cụ có giá trị cho cộng đồng thị giác máy tính. Khi nghiên cứu trong lĩnh vực này tiến triển, chúng ta có thể mong đợi sẽ thấy các mô hình phức tạp hơn nữa, vượt qua các giới hạn của những gì có thể với việc học đặc trưng thị giác không giám sát.

Tài Liệu Tham Khảo

  • DINOv2: Learning Robust Visual Features without Supervision
  • iBOT

Related Articles

Tháng 1 31, 2025

DINOv2 Phần 2

Tháng 1 31, 2025

DINOv2 Phần 3

Post a comment

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *