If you're seeing this message, it means we're having trouble loading external resources on our website.

Nếu bạn đang sử dụng bộ lọc web, vui lòng kiểm tra lại xem bộ lọc có chặn hai tên miền *.kastatic.org*.kasandbox.org hay không.

Nội dung chính

Cách thị giác máy tính vận hành

Thị giác máy tính là một mô hình học máy được sử dụng trong ô tô tự lái, hệ thống nhận diện khuôn mặt và canh tác bền vững. Tìm hiểu cách máy tính học cách phân loại hình ảnh, cách máy tính xây dựng các hình dạng từ đơn giản đến hình phức tạp và tại sao máy tính lại khó phân biệt được sự khác biệt giữa chú cho chihuahua và bánh nướng xốp tỏng video này.

Trình bày bởi:
Alejandro Carrillo (Farmwise) - kỹ sư phát triển robot canh tác thế hệ mới sử dụng thị giác máy tính để tăng năng suất thu hoạch mùa vụ.
Kate Park (Tesla) - hiện đang làm việc tại Tesla Autopilot, bộ phận phát triển xe ô tô tự lái.

Hãy bắt đầu học trên code.org ngay hôm nay!

Kết nối với chúng tôi qua các trang mạng xã hội:
• Twitter: https://twitter.com/codeorg
• Facebook: https://www.facebook.com/Code.org
• Instagram: https://instagram.com/codeorg
• TikTok: https://tiktok.com/@code.org
• LinkedIn: https://www.linkedin.com/company/code-org
• Medium: https://medium.com/@codeorg

Sản xuất và đạo diễn: Jael Burrows
Đồng sản xuất: Kristin Neibert
Sản xuất nội dung: Hadi Partovi, Mike Harvey, Winter Dong, Erin Bond, Dan Schneidẻ và Jael Burrows
Quay phim: Bow James
.
Được tạo bởi Code.org.

Tham gia cuộc thảo luận?

Chưa có bài đăng nào.
Bạn có hiểu Tiếng Anh không? Bấm vào đây để thấy thêm các thảo luận trên trang Khan Academy Tiếng Anh.

Thuyết minh video

TRÍ TUỆ NHÂN TẠO CÁCH THỊ GIÁC MÁY TÍNH VẬN HÀNH Xin chào! Tôi là Alejandro Carrillo và tôi là kỹ sư robot tại một công ty trong lĩnh vực nông nghiệp. Cụ thể thì đội ngũ của tôi sử dụng mô hình học máy, công nghệ robot và thị giác máy tính để nhận biết sự khác nhau giữa những loại cây trồng ta thu hoạch và cỏ dại lấy đi chất dinh dưỡng của cây. Từ đó, ta có thể loại bỏ cỏ dại mà không cần chất hóa học. Tôi là Kate Park và tôi làm việc tại Tesla Autopilot. Tôi phát triển các xe ô tô tự lái. Bất kỳ nơi nào cần tối ưu hóa việc sử dụng tài nguyên thì đó là nơi công nghệ có thể đóng vai trò quan trọng. Một trong những sản phẩm ứng dụng AI sẽ có ảnh hưởng lớn nhất tới chúng ta là các xe ô tô tự lái. Bạn đã bao giờ thắc mắc máy tính có thể nhận diện khuôn mặt hoặc lái xe ô tô như thế nào chưa? Hoặc bạn đã bao giờ thắc mắc tại sao máy tính gặp khó khăn trong việc chỉ ra sự khác nhau giữa con chó và cái bánh vòng chưa? Điều này liên quan tới thị giác máy tính, tức là cách máy tính hiểu hình ảnh. Hãy cùng xem một số ví dụ về cách máy tính học khả năng quan sát nhé. Ta có hai hình chữ "X" và chữ "O". Trước đó, bạn hẳn đã được học cách gọi tên các hình này nhưng máy tính chỉ mới nhìn những hình ảnh này lần đầu. Chúng chỉ thấy một đống các hình vuông nhỏ, được gọi là pixel. Mỗi pixel có một giá trị số. Để máy tính nhận diện được hình, máy tính phải hiểu những con số này để tìm ra nội dung của bức ảnh. Với cách lập trình truyền thống, bạn có thể yêu cầu máy tính kiểm tra xem pixel nào được lấp đầy, từ đó suy ra hình dạng có trong ảnh. Nếu các pixel ở trung tâm và ở các góc được tô màu thì đó là chữ "X". Nếu các pixel ở trung tâm và ở các góc bị trống thì đó là chữ "O". Cách lập trình truyền thống hoạt động hiệu quả cho các trường hợp này, nhưng nếu chúng ta yêu cầu máy tính nhận diện các hình ảnh này thì sao? Máy tính sẽ nghĩ đây là gì? Chúng ta đã cung cấp cho máy tính định nghĩa chính xác về hình dạng của chữ "X". Nhưng các pixel trong những hình ảnh này không được tô màu đúng như định nghĩa. Như vậy, máy tính không nghĩ các hình này là chữ "X". Thực tế, máy tính nghĩ các hình này là chữ "O" vì các pixel ở góc và ở trung tâm đều trống và điều này trùng khớp với định nghĩa của chữ "O" mà chúng ta cung cấp trước đó. Trong ví dụ này, cách lập trình truyền thống chỉ hiệu quả trong một số trường hợp. Nhưng với mô hình học máy, chúng ta có thể dạy máy tính cách nhận diện hình dạng bất kể hình ảnh đó được xoay, lật hay thay đổi kích thước. Việc đào tạo máy tính cần hàng nghìn, thậm chí hàng triệu ví dụ từ dữ liệu đào tạo cùng với rất nhiều thử nghiệm và lỗi sai. Ta thử đào tạo máy tính nhé! Đây là một số hình dạng đơn giản mà ta có thể dùng để dạy máy tính cách quan sát. Ban đầu, máy tính không hề biết gì và đoán ngẫu nhiên dựa trên một nhóm các lựa chọn được cài đặt sẵn. Và máy tính đoán sai. Không sao cả vì đây là cách máy tính học. Sau khi đưa ra phỏng đoán, máy tính sẽ được thấy đáp án. Tương tự như khi chúng ta học với thẻ từ vựng. Đôi khi chúng ta sẽ làm sai trước khi có thể làm đúng. Với mỗi lần đoán, máy tính nhìn vào mỗi pixel và các pixel xung quanh đó. Máy tính cố gắng nhận diện các mẫu và tạo ra các quy luật để đoán. Ví dụ, khi thấy một hàng các pixel màu cam ở ngay cạnh một hàng các pixel màu trắng, máy tính sẽ nhận diện đó là một cạnh. Nếu máy tính thấy hai cạnh có hướng nhất định, ví dụ tạo thành góc 90 độ thì máy tính có thể sẽ đoán đây là hình vuông. Không phải lúc nào máy tính cũng đoán đúng nhưng qua nhiều thử nghiệm và nhiều lần mắc lỗi sai, thuật toán sẽ đoán ngày càng chính xác. Bất kể là đoán hình dạng, động vật hay bất kỳ loại nào khác, mô hình học máy tìm ra các đặc điểm mẫu bằng cách học từ lỗi sai. Dữ liệu đào tạo được sử dụng để tạo ra một mô hình thống kê, hay đơn giản là máy đoán. Khi ta cung cấp dữ liệu đào tạo, máy đoán sẽ được điều chỉnh và tối ưu hóa để nhận diện các hình ảnh mà chúng ta cung cấp và ta kì vọng máy đoán cũng sẽ nhận diện được các bức ảnh mới với độ chính xác tương đương. Việc chỉ ra sự khác biệt giữa chữ "X" và chữ "O" hay phân loại các hình dạng cơ bản có vẻ dễ dàng, nhưng hầu hết các hình ảnh không đơn giản như vậy. Hãy cùng xem cách công nghệ thị giác máy tính học nhận diện các hình ảnh phức tạp hoặc các cảnh như trong thực tế nhé. Hầu hết các hình ảnh phức tạp đều có thể chia ra thành các pixel nhỏ đơn giản. Ví dụ, con mắt được tạo nên từ hai đường vòng cung và một vài đường tròn ở trong. Một cái bánh xe được tạo ra từ các vòng tròn đồng tâm và các tia tỏa ra từ tâm. Máy tính có thể nhận diện đặc điểm mẫu trong tất cả các pixel này nhờ vào mạng lưới nơ-ron gồm nhiều lớp. Lớp nơ-ron đầu tiên lấy các giá trị pixel để có các dữ liệu số nhằm xác định các cạnh. Các lớp nơ-ron tiếp theo tiếp nhận thông tin các cạnh và cố gắng xác định các hình dạng đơn giản. Cuối cùng, máy tính kết hợp tất cả thông tin để hiểu nội dung của bức ảnh. Có thể cần đến hàng trăm nghìn, thậm chí là hàng triệu bức ảnh đã được đánh dấu các chi tiết để đào tạo hệ thống thị giác máy tính. Đôi khi, như thế vẫn chưa đủ. Một số hệ thống nhận diện khuôn mặt gặp khó khăn trong việc nhận diện người da màu vì hệ thống này chủ yếu được đào tạo bằng các hình ảnh của người da trắng. Đôi khi, công nghệ thị giác máy tính gặp những vấn đề khá ngớ ngẩn ví dụ như khi máy tính gặp khó khăn trong lúc phân biệt các con chó này. Ơ, khoan đã, đây không phải là một con chó. Nhưng trông nó cũng khá giống con chó nhỉ, ít nhất là trông giống con chó này. Vì xã hội đang sử dụng thị giác máy tính để giải quyết các vấn đề thực tế như phát hiện bệnh hoặc chẩn đoán hình ảnh trong y khoa hoặc giúp ô tô tự lái nhận diện người đi đường, việc tất cả chúng ta hiểu cách vận hành của các hệ thống này và biết các hệ thống đó phù hợp để giải quyết vấn đề nào là rất quan trọng. Thị giác máy tính có thể mở ra một thế giới diệu kỳ đầy triển vọng nhưng máy tính sẽ chỉ hoạt động tốt khi tiếp nhận dữ liệu đào tạo có chất lượng.