Blog

C++ cho lập trình Robot – Phần 1

Chào mừng bạn đến với thế giới robot đầy thú vị! Nếu bạn đang chập chững bước đi trên con đường trở thành kỹ sư robot, việc nắm vững các công cụ xây dựng phần mềm là vô cùng quan trọng. Bài viết này sẽ như một người bạn đồng hành, hướng dẫn bạn từng bước cách sử dụng CMake và Qt – bộ đôi hoàn hảo để phát triển các ứng dụng robot mạnh mẽ, linh hoạt và dễ bảo trì.

Mô Hình Phân Vùng Ngữ Nghĩa (Sematic Segmentation) Tiền Huấn Luyện Trên Tập Dữ Liệu COCO

Là các kỹ sư thị giác máy tính và học sâu, chúng ta thường fine-tune (tinh chỉnh) các mô hình phân vùng ngữ nghĩa cho nhiều tác vụ khác nhau. Để làm điều này, PyTorch cung cấp một số mô hình đã được huấn luyện trước trên tập dữ liệu COCO. Mô hình nhỏ nhất có sẵn trên nền tảng Torchvision là mô hình LRASPP MobileNetV3 với 3.2 triệu tham số.

Sự Kết Hợp Các Mô Hình Nền Tảng Cho Các Tác Vụ Phân Vùng và Phát Hiện

Các Mô Hình Ngôn Ngữ Thị Giác (VLMs), Mô Hình Ngôn Ngữ Lớn (LLMs) và mô hình thị giác nền tảng đang phát triển mạnh mẽ trong thế giới AI hiện tại. Mặc dù các mô hình độc quyền như ChatGPT và Claude thúc đẩy các trường hợp sử dụng kinh doanh tại các tổ chức lớn, các biến thể mã nguồn mở nhỏ hơn của các LLM và VLM này thúc đẩy các công ty khởi nghiệp và sản phẩm của họ.

DINOv2 Phần 4

Huấn luyện tự giám sát (SSL) của DINOv2 giúp nó học được những đặc trưng hình ảnh cực kỳ mạnh mẽ. Chúng ta có thể sử dụng backbone đã được huấn luyện này cho nhiều tác vụ hạ nguồn khác nhau, chẳng hạn như: phân loại ảnh, phân vùng ảnh, khớp đặc trưng và phát hiện đối tượng. Trong bài viết này, chúng ta sẽ thử nghiệm với DINOv2 segmentation bằng cách sử dụng fine-tuning (tinh chỉnh) và transfer learning (học chuyển giao).

DINOv2 Phần 3

Việc huấn luyện các mô hình phân vùng ngữ nghĩa (semantic segmentation) thường tốn thời gian và đòi hỏi nhiều tài nguyên tính toán. Tuy nhiên, với các backbone DINOv2 tự giám sát mạnh mẽ, chúng ta có thể giảm đáng kể chi phí tính toán và thời gian huấn luyện. Sử dụng DINOv2, chúng ta chỉ cần thêm một segmentation head (đầu phân vùng) lên trên backbone đã được huấn luyện trước và huấn luyện một vài nghìn tham số để có hiệu suất tốt.

DINOv2 Phần 2

DINOv2 là một trong những mô hình thị giác tự giám sát nổi tiếng nhất hiện nay. Backbone (mạng xương sống) đã được huấn luyện trước của nó có thể được sử dụng cho nhiều tác vụ khác nhau, bao gồm: