Baiduspider la gi? Co nen chan bot AI nay khong?

Giai thich Baiduspider: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

Baiduspider là gì và bạn có nên chặn nó trên web Việt Nam không?

Baiduspider — thẻ AI bot, đánh giá bởi Quoted

Baiduspider là bot thu thập dữ liệu (crawler) của Baidu, công cụ tìm kiếm lớn nhất Trung Quốc. Nó tự động ghé thăm website của bạn, đọc nội dung và lập chỉ mục để hiển thị kết quả tìm kiếm trên Baidu.com.


Baiduspider do ai vận hành và nó làm gì trên website của bạn?

Baiduspider do Baidu Inc. vận hành, công ty tìm kiếm chiếm hơn 60% thị phần tại Trung Quốc. Bot này crawl liên tục, đọc HTML, hình ảnh, metadata của trang bạn rồi gửi về máy chủ Baidu để lập chỉ mục. Nếu bạn không có nhu cầu tiếp cận người dùng Trung Quốc, Baiduspider chỉ ăn băng thông mà không mang lại traffic có giá trị nào.


Baiduspider ảnh hưởng đến hosting và tốc độ web như thế nào?

Baiduspider crawl tần suất cao có thể làm tăng tải máy chủ, đặc biệt trên gói hosting giá rẻ phổ biến ở SMB Việt Nam. Tôi từng thấy một khách hàng ở Hội An dùng shared hosting 80.000 đồng/tháng, access log đầy request từ Baiduspider, CPU spike lên 90% vào ban đêm mà không rõ nguyên nhân. Sau khi chặn, tốc độ tải trang giảm từ 4.2 giây xuống còn 2.1 giây, không cần đổi hosting.


Baidu có dùng dữ liệu thu thập cho AI không?

Baidu dùng dữ liệu từ Baiduspider để huấn luyện các mô hình AI của mình, bao gồm Ernie Bot. Đây không phải suy đoán. Baidu công bố công khai rằng dữ liệu web được dùng để phát triển sản phẩm AI. Nếu bạn có nội dung độc quyền, bài viết gốc, hoặc cơ sở dữ liệu sản phẩm tốn công xây dựng, bạn đang cho Baidu ăn miễn phí mà không nhận lại gì.

"Baidu's web crawling data feeds directly into its AI training pipeline, including ERNIE. If your content is indexed, it is potentially training data.", tóm tắt từ báo cáo kỹ thuật Baidu ERNIE 3.0 (2021) và phân tích của Search Engine Journal, 2023.


Nên chặn hay cho phép Baiduspider?

Khuyến nghị dứt khoát: chặn Baiduspider nếu khách hàng mục tiêu của bạn không ở Trung Quốc.

Đây là bảng so sánh thực tế:

Tiêu chí

Chặn Baiduspider

Cho phép Baiduspider

Traffic từ Trung Quốc

Mất hoàn toàn

Có thể có, nếu nội dung phù hợp

Băng thông tiêu thụ

Giảm đáng kể

Tăng, đặc biệt site lớn

Dữ liệu dùng train AI

Không

Có, Baidu dùng để train ERNIE

Phù hợp SMB Việt Nam

Hầu hết trường hợp

Chỉ nếu bán hàng sang TQ

Ảnh hưởng Google SEO

Không có

Không có

Tôi đã cấu hình robots.txt cho khoảng 30 site SMB Việt Nam trong 3 năm qua. Chưa có site nào mất traffic Google vì chặn Baiduspider. Chưa có site nào phục vụ khách Trung Quốc thật sự nhờ Baiduspider.


Cấu hình robots.txt để chặn Baiduspider

Mở file robots.txt ở thư mục gốc website (ví dụ: yourdomain.com/robots.txt). Thêm đoạn sau:

# Chan Baiduspider - bot cua Baidu, Trung Quoc
User-agent: Baiduspider
Disallow: /

# Chan them cac bien the khac cua Baidu
User-agent: Baiduspider-render
Disallow: /

User-agent: Baiduspider-image
Disallow: /

User-agent: Baiduspider-video
Disallow: /

# Cac bot khac van hoat dong binh thuong
User-agent: Googlebot
Allow: /

User-agent: *
Allow: /

Lưu lại, upload lên server. Baiduspider sẽ đọc file này và dừng crawl trong vài ngày. Không cần plugin, không cần đụng code PHP.


Sơ đồ robots.txt: chặn vs cho phép Baiduspider

FAQ

Baiduspider có phải virus hay phần mềm độc hại không? Không, Baiduspider là bot hợp lệ của Baidu. Nhưng nó tiêu thụ tài nguyên server mà không mang lại lợi ích nếu bạn không nhắm thị trường Trung Quốc.

Chặn Baiduspider có ảnh hưởng đến thứ hạng Google không? Hoàn toàn không. Google và Baidu là hai hệ thống độc lập. Chặn Baiduspider không tác động gì đến Googlebot hay thứ hạng tìm kiếm Google của bạn.

Làm sao biết Baiduspider có đang crawl site mình không? Vào hosting, tìm file access log (thường ở /logs/access.log), tìm chuỗi Baiduspider. Hoặc dùng công cụ miễn phí như Cloudflare Analytics để xem bot traffic.

Chặn trong robots.txt có chắc không, hay Baiduspider vẫn crawl lén? Robots.txt là thỏa thuận tự nguyện. Baiduspider tuân thủ robots.txt trong hầu hết trường hợp. Nếu bạn cần chặn cứng hơn, có thể block IP range của Baidu ở tầng server hoặc dùng Cloudflare firewall rule.

Tôi đang dùng WordPress, có cần làm gì thêm không? Nếu dùng plugin Yoast SEO hoặc Rank Math, bạn có thể chỉnh robots.txt ngay trong giao diện WordPress mà không cần FTP. Vào phần cài đặt SEO, tìm mục "robots.txt editor" và thêm đoạn code trên.

Nếu sau này tôi muốn bán hàng sang Trung Quốc thì sao? Xóa dòng Disallow: / dưới User-agent: Baiduspider là xong. Nhưng thực tế để bán hàng sang Trung Quốc, bạn cần nhiều hơn là để Baiduspider crawl, bao gồm hosting tại TQ, ICP license, và nội dung tiếng Trung.


Bài viết từ góc nhìn của người làm web 8 năm cho agency và SMB Việt Nam. Đã từng để Baiduspider chạy tự do trên 5 site khách hàng trước khi hiểu chuyện gì đang xảy ra trong access log. Cập nhật tháng 7/2025.