Nỗ lực mới của gã khổng lồ Baidu trong việc bảo vệ tài sản trực tuyến

22:35 24/08/2024

Khi nhu cầu về kho dữ liệu lớn nhằm phục vụ cho việc đào tạo và xây dựng các mô hình và ứng dụng trí tuệ nhân tạo đang gia tăng, Baidu đã tích cực bảo vệ tài sản trực tuyến của mình trước các đối thủ.

Ảnh minh họa
Baidu đang tích cực bảo vệ tài sản trực tuyến.

Gã khổng lồ tìm kiếm trực tuyến Trung Quốc Baidu dường như đã bắt đầu chặn các công cụ tìm kiếm của Google thuộc Alphabet và Bing của Microsoft khỏi việc lấy nội dung từ dịch vụ Baidu Baike, dịch vụ tương tự Wikipedia bằng tiếng Trung

Baidu đã cập nhật tệp robots.txt của Baidu Baike – đây là tệp hướng dẫn các công cụ tìm kiếm biết trang web nào được phép truy cập. Với bản cập nhật mới, Baidu đã ngăn không cho các công cụ tìm kiếm của Google và Bing truy cập và lập chỉ mục nội dung trên trang web của mình.

Bản cập nhật này dường như đã được thực hiện vào khoảng ngày 8 tháng 8, theo các ghi nhận trên dịch vụ lưu trữ internet Wayback Machine. 

Động thái này cho thấy nỗ lực ngày càng tăng của Baidu trong việc bảo vệ tài sản trực tuyến của mình, khi nhu cầu về kho dữ liệu lớn đang gia tăng nhằm phục vụ cho việc đào tạo, xây dựng các mô hình và ứng dụng trí tuệ nhân tạo (AI).

Trước đó, vào tháng 7, nền tảng mạng xã hội Reddit của Mỹ cũng đã chặn các công cụ tìm kiếm khác, trừ Google, khỏi việc lập chỉ mục các bài viết và thảo luận của mình. Google có một thỏa thuận trị giá hàng triệu đô la với Reddit, cho phép Google thu thập dữ liệu từ Reddit để phát triển các dịch vụ AI.

Thậm chí, vào năm ngoái, Microsoft cũng đã cảnh báo vào năm ngoái rằng họ sẽ ngừng cung cấp dữ liệu tìm kiếm trực tuyến cho các công cụ tìm kiếm đối thủ nếu họ sử dụng dữ liệu này để phát triển các chatbot và dịch vụ AI khác, theo báo cáo của Bloomberg.

Baidu Baike, phiên bản tiếng Trung của bách khoa toàn thư trực tuyến Wikipedia hiện có 1,43 triệu bài viết được cung cấp cho các trình thu thập dữ liệu của công cụ tìm kiếm.

Đại diện của Baidu, Google và Microsoft hiện không phản hồi yêu cầu bình luận.

Hơn hai năm sau khi ChatGPT của OpenAI ra mắt, nhiều nhà phát triển AI lớn trên toàn thế giới đang ký kết các hợp đồng với các nhà xuất bản nội dung để truy cập nội dung chất lượng phục vụ cho các dự án GenAI của họ. GenAI là thuật ngữ để chỉ các thuật toán và dịch vụ như ChatGPT, được sử dụng để tạo ra nội dung mới, bao gồm âm thanh, mã nguồn, hình ảnh, văn bản, mô phỏng và video.

Chẳng hạn, vào tháng 6, OpenAI đã ký kết hợp đồng với ạp chí Time của Mỹ, cho phép họ truy cập vào toàn bộ nội dung lưu trữ từ hơn 100 năm lịch sử của tạp chí này.

Mai Anh

Tags: