Reddit chặn Wayback Machine vì lo ngại dữ liệu bị AI khai thác
Reddit sẽ hạn chế Wayback Machine truy cập phần lớn nội dung để ngăn AI khai thác dữ liệu, chỉ cho phép lưu trang chủ và tiêu đề phổ biến.
Tóm tắt nhanh:
Reddit giới hạn Wayback Machine, chỉ cho lưu trang chủ và tiêu đề phổ biến.
Lý do: lo ngại công ty AI khai thác dữ liệu vi phạm chính sách.
Trước đó, Reddit từng chặn API và yêu cầu các công cụ tìm kiếm trả phí dữ liệu.
Reddit xác nhận đã phát hiện một số công ty AI thu thập dữ liệu từ Wayback Machine của Internet Archive, vi phạm chính sách nền tảng. Do đó, mạng xã hội này sẽ giới hạn quyền truy cập, chỉ cho phép Wayback Machine lưu trữ trang chủ Reddit.com và danh sách tiêu đề phổ biến, thay vì toàn bộ bài đăng, bình luận hay hồ sơ người dùng như trước.

Người phát ngôn Tim Rathschmidt cho biết, Reddit yêu cầu Internet Archive tuân thủ các chính sách bảo vệ quyền riêng tư và xóa nội dung đã bị gỡ bỏ trước khi khôi phục quyền truy cập đầy đủ.
Theo Reddit, việc giới hạn sẽ được triển khai dần từ hôm nay. Công ty đã liên hệ trước với Internet Archive để thông báo về quyết định này, đồng thời từng bày tỏ lo ngại về việc nội dung bị thu thập từ Wayback Machine trong quá khứ.
Đây không phải lần đầu Reddit chặn các công cụ quét dữ liệu. Năm 2023, Reddit thay đổi chính sách API, khiến nhiều ứng dụng bên thứ ba phải đóng cửa sau khi không thể chi trả phí truy cập dữ liệu – nguyên nhân được cho là các API này bị dùng để huấn luyện AI.
Năm ngoái, Reddit ký hợp đồng cung cấp dữ liệu cho Google phục vụ tìm kiếm và huấn luyện AI, đồng thời bắt đầu chặn các công cụ tìm kiếm lớn khác nếu họ không trả phí. Công ty cũng đạt thỏa thuận với OpenAI, nhưng đã kiện Anthropic vào tháng 6/2024 vì cáo buộc tiếp tục quét dữ liệu dù đã tuyên bố dừng.
Mark Graham, Giám đốc Wayback Machine, cho biết Internet Archive có mối quan hệ lâu dài với Reddit và vẫn đang thảo luận về vấn đề này.