Giới thiệu về k-fold cross-validation

Chúng tôi rất vui mừng được chia sẻ kiến thức sâu sắc về từ khóa Cross validation la gi để tối ưu hóa nội dung trang web và chiến dịch tiếp thị trực tuyến. Bài viết cung cấp phương pháp tìm kiếm, phân tích và lựa chọn từ khóa phù hợp, cùng với chiến lược và công cụ hữu ích. Hy vọng thông tin này sẽ giúp bạn xây dựng chiến lược thành công và thu hút lưu lượng người dùng. Cảm ơn sự quan tâm và hãy tiếp tục theo dõi blog để cập nhật kiến thức mới nhất.

Cross validation là một phương pháp thống kê được sử dụng để ước tính hiệu quả của rất nhiều mô hình học máy. Nó thường được sử dụng để so sánh và lựa chọn ra mô hình tốt nhất cho một bài toán. Kỹ thuật này dễ hiểu, dễ thực hiện và cho ra các ước tính tin cậy hơn so với những phương pháp khác. Trong nội dung bài viết này hãy cùng trituenhantao.io tìm hiểu về kỹ thuật cross validation với k-fold.

Bạn Đang Xem: Giới thiệu về k-fold cross-validation

k-Fold Cross-Validation là gì?

Cross validation là một kỹ thuật lấy mẫu để đánh giá và thẩm định mô hình học máy trong trường hợp tài liệu không được dồi dào cho lắm.

Xem Thêm : Chả Cá Tiếng Anh Là Gì? Giải đáp thắc mắc của nhiều người❤️✔️

Thông số quan trọng trong kỹ thuật này là k, thay mặt cho số nhóm mà tài liệu sẽ tiến hành chia ra. Vì lý do đó, nó được mang tên k-fold cross-validation. Khi giá trị của k được lựa chọn, người ta sử dụng trực tiếp giá trị đó trong tên của phương pháp đánh giá và thẩm định. Ví dụ với k=10, phương pháp sẽ mang tên 10-fold cross-validation.

Kỹ thuật này thường gồm có các bước như sau:

  1. Xáo trộn dataset một cách tình cờ
  2. Chia dataset thành k nhóm
  3. Với mỗi nhóm:
    1. Sử dụng nhóm ngày nay để đánh giá và thẩm định hiệu quả mô hình
    2. Các nhóm còn sót lại được sử dụng để huấn luyện mô hình
    3. Huấn luyện mô hình
    4. Nhìn nhận và đánh giá và sau đó hủy mô hình
  4. Tổng hợp hiệu quả của mô hình dựa từ các số liệu đánh giá và thẩm định

Một lưu ý quan trọng là mỗi mẫu chỉ được gán cho duy nhất một nhóm và phải ở nguyên trong nhóm đó cho tới hết quá trình. Các tiền xử lý tài liệu như xây dựng vocabulary chỉ được thực hiện trên tập huấn luyện đã được chia chứ không được thực hiện trên toàn bộ dataset. Việc hủy mô hình sau mỗi lần đánh giá và thẩm định là bắt buộc, tránh trường hợp mô hình ghi nhớ nhãn của tập test trong lần đánh giá và thẩm định trước. Các lỗi thiết lập này dễ xẩy ra và đều dẫn đến kết quả đánh giá và thẩm định không chuẩn xác (thường là tích cực hơn so với thực tế).

Kết quả tổng hợp thường là trung bình của mỗi lần đánh giá và thẩm định. Ngoài ra việc bổ sung thông tin về phương sai và độ lệch chuẩn vào kết quả tổng hợp cũng được sử dụng trong thực tế.

Cấu hình k

Xem Thêm : So sánh Mèo golden Ny25 tối hơn Ny11

Giá trị k là thông số quan trọng để sở hữu thể đánh giá và thẩm định chuẩn xác mô hình, vậy thì lựa chọn thông số này thế nào?

Ba chiến thuật phổ thông để lựa chọn k:

  • Thay mặt: Giá trị của k được chọn để mỗi tập train/test đủ lớn, có thể thay mặt về mặt thống kê cho dataset chứa nó.
  • k=10: Giá trị của k được gán một mực bằng 10, một giá trị thường được sử dụng và được chứng minh là cho sai số nhỏ, phương sai thấp (thông qua thực nghiệm).
  • k=n: Giá trị của k được gán một mực bằng n , với n là kích thước của dataset, như vậy mỗi mãu sẽ tiến hành sử dụng để đánh giá và thẩm định mô hình một lần. Cách tiếp cận này còn mang tên leave-one-out cross-validation.

Giá trị k=10 là một cấu hình rất phổ thông. Bạn nên sử dụng giá trị này nếu như gặp khó khăn để lựa chọn một giá trị thích hợp cho bài toán của bạn. Ngoài ra, bạn cũng nên chọn giá trị của k sao cho có thể chia đều các mẫu vào các nhóm. Thư viện scikit-learn cung cấp các thiết lập cấu hình đầy đủ của cross-validation. Chúng ta cũng có thể tham khảo tại Model Selection API.

Nếu như bạn thấy nội dung bài viết hữu ích, đừng ngại san sớt với những người dân quan tâm. Hãy thường xuyên truy cập trituenhantao.io hoặc đăng ký (dưới chân trang) để nhận được những nội dung bài viết tương tự sớm nhất!

You May Also Like

About the Author: v1000