Chúng tôi đang gặp khó khăn trong việc tải các tài nguyên bên ngoài có trên trang web.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

Nội dung chính

Lịch sử tìm kiếm

Công cụ tìm kiếm là một dịch vụ thu thập dữ liệu từ World Wide Web, lập thành chỉ mục và cho phép người dùng tra cứu chỉ mục đó để tìm ra thông tin. Google là công cụ tìm kiếm phổ biến nhất, nhưng đây không phải là công cụ duy nhất và mỗi công cụ tìm kiếm đều có phương thức thu thập dữ liệu riêng.
Giờ đây, nhờ vào các công cụ tìm kiếm, việc tự tìm kiếm thông tin để tìm ra lời giải đáp cho những câu hỏi mà ta luôn thắc mắc là điều nằm trong tầm tay chúng ta.
Một khi chúng ta gõ câu hỏi và ấn "Tìm kiếm", các công cụ tìm kiếm sẽ tiến hành xử lý dữ liệu.

Những dữ liệu được thu thập

Tùy thuộc vào loại công cụ tìm kiếm chúng ta sử dụng mà thời gian các truy vấn (hay thông tin ta nhập vào ô tìm kiếm) được ghi và lưu trữ trong cơ sở dữ liệu có thể thay đổi. Các thông tin trên có thể được lưu lại trong khoảng thời gian rất dài.
Bản thân một truy vấn tìm kiếm không phải là thông tin cá nhân vì có thể có nhiều người cũng tìm kiếm thông tin giống như bạn. Tuy nhiên, các công cụ tìm kiếm không chỉ thu thập các truy vấn, mà còn có thể thu thập cả những thông tin có khả năng định danh cá nhân.
Một truy vấn tìm kiếm sẽ được lưu trong cơ sở dữ liệu ở dạng như dưới đây:
Truy vấn tìm kiếmNgàyThời gianĐịa chỉ IPTác nhân người dùng
Cách lắp ráp mô-tô nước?11 tháng Ba, 202011:14 sáng49.121.111.73Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1
Nếu bạn liên tục sử dụng cùng một công cụ tìm kiếm trên cùng chiếc máy tính và kết nối cùng một mạng Internet (như nhiều người trong chúng ta vẫn thường làm ở nhà), thì tất cả các truy vấn tìm kiếm của bạn sẽ có cùng một địa chỉ IP.
Như vậy, một lịch sử truy vấn bao gồm nhiều truy vấn khác nhau sẽ trông như sau:
Truy vấn tìm kiếmNgàyGiờĐịa chỉ IPTác nhân người dùng
"Cách lắp ráp mô-tô nước?"11 tháng Ba, 202011:14 sáng49.121.111.73Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1
"Cửa hàng bán dụng cụ sửa nhà gần đây"11 tháng Ba, 20204:00 chiều49.121.111.73Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1
"Pizza giá rẻ giao tới 95543"12 tháng Ba, 20209:07 tối49.121.111.73Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1
"Gia phả nhà Windsor"13 tháng Ba, 20202:32 chiều49.121.111.73Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1
Qua đây, ta nhận thấy các truy vấn tìm kiếm bỗng trở nên rất giống với thông tin định danh cá nhân.
Hơn nữa, lịch sử tìm kiếm cũng có thể bao gồm cookie hoặc thậm chí là ID của bạn nếu bạn đã từng đăng nhập vào trang web của công cụ tìm kiếm khi đặt ra truy vấn.

Công dụng của dữ liệu lịch sử tìm kiếm

Bằng cách lưu trữ cả truy vấn tìm kiếm lẫn thông tin định danh của chúng ta, một công cụ tìm kiếm có thể cá nhân hóa các kết quả tìm kiếm.
Chúng ta sẽ lấy truy vấn tìm kiếm "Python" làm ví dụ. Nếu người dùng là nhà sinh vật học và thường xuyên tìm kiếm những thuật ngữ sinh học, công cụ tìm kiếm sẽ hiển thị những kết quả đầu tiên liên quan đến một loài động vật, cụ thể hơn là loài trăn, như sau:
Tuy nhiên, nếu người tìm kiếm là chuyên gia phát triển phần mềm và có nhiều truy vấn liên quan tới lập trình trong lịch sử tìm kiếm của anh ấy, công cụ tìm kiếm có thể sẽ hiển thị kết quả tìm kiếm như thế này:
Như vậy, kết quả tìm kiếm đã được cá nhân hóa dựa trên lịch sử tìm kiếm để sát với nhu cầu của một nhà sinh vật học hoặc một chuyên gia phát triển phần mềm. 🚫🐍
Các công cụ tìm kiếm thường xuyên chèn quảng cáo cùng với kết quả tìm kiếm như một phương thức kiếm tiền để có đủ kinh phí vận hành và cung cấp dịch vụ tìm kiếm miễn phí cho người dùng. Khi các công cụ tìm kiếm thu thập lịch sử tìm kiếm của người dùng, các công cụ này sẽ dựa vào tất cả các thông tin đó để làm cơ sở chèn quảng cáo.
Google là một ví dụ. Bên cạnh việc vận hành công cụ tìm kiếm, Google còn điều hành một mạng lưới quảng cáo rộng khắp và chạy quảng cáo trên hàng triệu trang web không thuộc quyền sở hữu của Google nhờ vào khả năng sử dụng lịch sử tìm kiếm để cá nhân hóa quảng cáo.
Có một lần, tôi dành một ngày để nghiên cứu về mạng cảm biến thông minh cho một bài nghiên cứu và cho đến bây giờ, tôi vẫn tiếp tục nhận được rất nhiều quảng cáo về chủ đề mạng cảm biến, ngay cả khi đang đọc blog thời trang.
Một quảng cáo xuất hiện trên một blog về thời trang (Tên thương hiệu đã được lược bỏ).
🤔 Khi bạn thấy quảng cáo trên trang web được cá nhân hóa theo sở thích của bạn, bạn sẽ cảm thấy vui vì có người hiểu rõ mong muốn của bạn hay sẽ cảm thấy e ngại vì họ biết quá nhiều thông tin về bạn?

Những rủi ro từ việc thu thập lịch sử tìm kiếm

Trên quan điểm của những người điều hành công cụ tìm kiếm, việc sử dụng lịch sử tìm kiếm chỉ để phục vụ mục đích cá nhân hóa trải nghiệm của người dùng và cải thiện trải nghiệm đó.
Tuy nhiên, bất cứ hình thức thu thập dữ liệu trực tuyến nào cũng tồn tại những mối hiểm nguy.
Vào năm 2005, công ty truyền thông trực tuyến AOL công khai dữ liệu tìm kiếm "đã được ẩn danh" của ba tháng cho những nhà nghiên cứu để họ sử dụng và phân tích trong công trình nghiên cứu. Họ ẩn danh tính của người tìm kiếm, bằng cách thay tên mỗi người trong hệ thống dữ liệu bằng một dãy số ID. Tuy nhiên, vì mỗi tên người dùng được thay bằng một số ID duy nhất, điều này cho phép những nhà nghiên cứu nhóm dữ liệu theo số ID và có thể xem tất cả những truy vấn được thực hiện bởi một người dùng. 😬
Chỉ trong vòng chưa đầy một tuần, các nhà báo của tạp chí New York Times đã có thể suy luận ra danh tính của người dùng mang số hiệu 4417749 thông qua việc liên kết các truy vấn và chắp vá những mảnh thông tin cá nhân của cô ấy.1 Cô ấy đã rất sốc khi phát hiện ra tất cả những truy vấn tìm kiếm của mình có thể được nhìn thấy công khai. Cô ấy đã chia sẻ với cánh nhà báo rằng: "Ôi trời ơi, đó là cuộc sống riêng tư của tôi mà. Tôi không hề biết rằng luôn có ai đó theo dõi mình”.

Người dùng phải làm gì?

Có lẽ khi bạn đọc tới đây, bạn có thể cảm thấy không thoải mái khi nhập truy vấn trên công cụ tìm kiếm nữa. Đó cũng là điều dễ hiểu. Nhưng đừng quá lo lắng, bạn không nhất thiết phải tẩy chay các công cụ tìm kiếm trong suốt phần đời còn lại của mình.
Bước đầu tiên chúng ta có thể làm là tìm hiểu công cụ tìm kiếm sẽ lưu trữ dữ liệu nào và sử dụng chúng ra sao. Bạn có thể đọc chính sách riêng tư của các công cụ tìm kiếm để tìm ra câu trả lời.
Nếu bạn không thích cách các công cụ tìm kiếm thu thập dữ liệu nhưng vẫn muốn tiếp tục sử dụng dịch vụ, bạn có thể tìm ở phần cài đặt những chức năng cho phép hạn chế hoặc vô hiệu hóa hoàn toàn việc thu thập dữ liệu. Đa phần các công cụ tìm kiếm đều tích hợp những chức năng này để có thể đáp ứng đối tượng người dùng đề cao sự riêng tư và bảo mật.
Nếu bạn không muốn tiếp tục sử dụng dịch vụ, bạn có thể tìm kiếm những công cụ khác. Ví dụ, DuckDuckGo là công cụ tìm kiếm đề cao sự riêng tư của người dùng bởi họ chỉ lưu trữ các truy vấn tìm kiếm web để cải thiện các tính năng như sửa lỗi chính tả. Họ không lưu địa chỉ IP, tác nhân người dùng, cookie hay các thông tin có thể định danh cá nhân. 2
🤔 Thói quen tìm kiếm của bạn đã có sự thay đổi nào sau khi đọc xong bài viết này? Sự thay đổi đó mang đến những lợi ích và hạn chế gì cho cuộc sống của bạn? Hãy chia sẻ với chúng tôi!
🙋🏽🙋🏻‍♀️🙋🏿‍♂️Bạn có câu hỏi nào về chủ đề này không? Chúng tôi rất sẵn sàng hỗ trợ bạn — hãy để lại câu hỏi ở mục câu hỏi phía dưới nhé!

Bạn muốn tham gia vào cuộc thảo luận?

Chưa có bài viết nào.
Bạn có hiểu Tiếng Anh không? Bấm vào đây để thấy thêm các thảo luận trên trang Khan Academy Tiếng Anh.