If you're seeing this message, it means we're having trouble loading external resources on our website.

Nếu bạn đang sử dụng bộ lọc web, vui lòng kiểm tra lại xem bộ lọc có chặn hai tên miền *.kastatic.org*.kasandbox.org hay không.

Nội dung chính

AI: Dữ liệu đào tạo và tính thiên lệch

Khía cạnh quan trọng nhất của Mô hình học máy là dữ liệu được sử dụng để đào tạo mô hình. Tìm hiểu xem dữ liệu đào tạo ảnh hưởng như thế nào đến dự đoán của mô hình học máy và tại sao dữ liệu thiên lệch có thể dẫn đến các quyết định thiên lệch.

Hãy bắt đầu học trên code.org ngay hôm nay!

Kết nối với chúng tôi qua các trang mạng xã hội:
• Twitter: https://twitter.com/codeorg
• Facebook: https://www.facebook.com/Code.org
• Instagram: https://instagram.com/codeorg
• TikTok: https://tiktok.com/@code.org
• LinkedIn: https://www.linkedin.com/company/code-org
• Medium: https://medium.com/@codeorg

.
Được tạo bởi Code.org.

Tham gia cuộc thảo luận?

Chưa có bài đăng nào.
Bạn có hiểu Tiếng Anh không? Bấm vào đây để thấy thêm các thảo luận trên trang Khan Academy Tiếng Anh.

Thuyết minh video

TRÍ TUỆ NHÂN TẠO DỮ LIỆU ĐÀO TẠO VÀ TÍNH THIÊN LỆCH Chất lượng của mô hình học máy được quyết định bởi chất lượng của dữ liệu đầu vào. Vì vậy, việc sử dụng một lượng lớn dữ liệu chất lượng cao là cực kỳ quan trọng. Do dữ liệu quan trọng đến vậy, ta cần quan tâm đến nguồn gốc của dữ liệu. Thông thường, máy tính có thể tự thu thập dữ liệu đào tạo từ những người như chúng ta mà ta không cần tác động gì thêm. Ví dụ, dịch vụ phát video có thể theo dõi những gì bạn xem. Sau đó, hệ thống có thể nhận diện đặc điểm mẫu trong các dữ liệu đó để đề xuất video tiếp theo cho bạn. Trong một số trường hợp khác, máy tính trực tiếp nhờ bạn hỗ trợ. Như khi một trang web yêu cầu bạn chỉ ra các biển báo trong ảnh, bạn đang cung cấp dữ liệu đào tạo để giúp máy tính học cách quan sát và có thể một ngày nào đó học cách lái xe. Các nhà nghiên cứu y khoa có thể sử dụng các bức ảnh y học như dữ liệu đào tạo để dạy máy tính cách nhận biết và chẩn đoán bệnh. Mô hình học máy cần hàng trăm, hàng nghìn bức ảnh và hướng dẫn đào tạo từ một bác sĩ có chuyên môn trước khi có thể tự xác định bệnh một cách chính xác. Kể cả khi đã có hàng nghìn ví dụ, máy tính vẫn có thể gặp vấn đề khi đưa ra dự đoán. Nếu dữ liệu chụp X-quang chỉ được thu thập từ nam giới, thì có thể dự đoán của máy tính chỉ đúng cho nam giới. Máy có thể không xác định được bệnh khi được yêu cầu chẩn đoán kết quả chụp X-quang của phụ nữ. Điểm mù này trong dữ liệu đào tạo sẽ dẫn đến khuynh hướng thiên lệch. Dữ liệu thiên lệch sẽ ưu tiên một số yếu tố trong khi ít chú ý hoặc loại trừ những yếu tố khác. Phụ thuộc vào cách dữ liệu đào tạo được thu thập, người đang thu thập và cách dữ liệu được đưa vào máy tính, có khả năng dữ liệu sẽ bao gồm cả ý kiến thiên lệch của con người. Khi học từ dữ liệu thiên lệch, máy tính có thể đưa ra những dự đoán thiên lệch. Vấn đề này xảy ra hay không sẽ phụ thuộc vào nhận thức của người phát triển mô hình. Như vậy, khi nhìn vào dữ liệu đào tạo, bạn hãy đặt ra hai câu hỏi: "Ta đã có đủ dữ liệu để đào tạo máy tính một cách chính xác chưa?" và "Dữ liệu này có đại diện cho tất cả các trường hợp và người dùng mà không có sự thiên lệch không?" Đây chính là lúc mà bạn - người đào tạo mô hình đóng vai trò rất quan trọng. Bạn là nhân tố quyết định để dữ liệu không có sự thiên lệch. Tức là bạn sẽ cần thu thập vô vàn ví dụ, thường là từ các nguồn khác nhau. Hãy nhớ rằng, khi bạn chọn dữ liệu cho mô hình học máy, thực chất bạn đang lập trình các thuật toán bằng cách sử dụng dữ liệu đào tạo thay vì mã. Dữ liệu ở đây chính là mã. Dữ liệu bạn cung cấp càng chất lượng, máy tính sẽ càng học tốt hơn.