Baidu-AI la gi? Co nen chan bot AI nay khong?
Giai thich Baidu-AI: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.
Baidu-AI là gì và bạn có nên chặn nó không? (2025)
Baidu-AI là crawler AI của Baidu, công cụ tìm kiếm lớn nhất Trung Quốc, được dùng để thu thập dữ liệu huấn luyện và cung cấp câu trả lời cho các sản phẩm AI của Baidu. Nếu web bạn không nhắm thị trường Trung Quốc, bot này lấy dữ liệu nhiều hơn là mang traffic về.
Tại sao bạn cần biết về Baidu-AI ngay bây giờ?
Baidu-AI đang crawl mạnh hơn từ 2024, và hầu hết SMB Việt Nam không có dòng nào trong robots.txt để xử lý nó. Tôi kiểm tra log server của 6 khách hàng agency trong Q1 2025, năm trong số đó có lượt Baidu-AI crawl đều đặn mỗi tuần. Không một khách nào bán hàng sang Trung Quốc. Bot này không mang về một đơn hàng nào, nhưng nó vẫn ăn băng thông và làm đầy log.
Baidu-AI do ai vận hành và dùng dữ liệu để làm gì?
Baidu-AI là bot chính thức của Baidu Inc., công ty Trung Quốc niêm yết trên NASDAQ. Bot này thu thập nội dung web để huấn luyện các mô hình AI của Baidu, bao gồm Ernie Bot, và để cung cấp kết quả cho tính năng AI Overview trên Baidu Search. Khác với Googlebot, Baidu-AI không index bạn vào kết quả tìm kiếm thông thường, nó chỉ lấy nội dung làm nguyên liệu cho AI. Tức là bạn cho đi dữ liệu mà không nhận lại traffic, không nhận lại visibility, không nhận lại gì cả.
Nên chặn hay cho phép Baidu-AI?
Khuyến nghị dứt khoát: Chặn, trừ khi bạn đang chạy chiến dịch SEO nhắm thị trường Trung Quốc đại lục.
Tiêu chí | Chặn Baidu-AI | Cho phép Baidu-AI |
|---|---|---|
Traffic thực tế về site | Không thay đổi | Gần như không có |
Băng thông tiêu tốn | Giảm | Mất thêm 3-8% tùy site |
Nội dung dùng huấn luyện AI | Không bị lấy | Bị lấy, không attribution |
Hữu ích cho SMB Việt Nam | Có | Không |
Trường hợp ngoại lệ | Nhắm TQ? Bỏ chặn | Chỉ khi có lý do rõ |
Tôi từng để mặc Baidu-AI crawl một site thương mại điện tử ở Đà Nẵng suốt 6 tháng vì nghĩ "biết đâu nó giúp gì đó". Kết quả: 0 session từ Baidu, 0 đơn hàng, nhưng log server dày thêm và hosting đội thêm một chút. Đó là lần cuối tôi để mặc bot không rõ lợi ích.
Cấu hình robots.txt để chặn Baidu-AI như thế nào?
Thêm đoạn sau vào file robots.txt ở thư mục gốc của domain bạn:
# Chan Baidu AI crawler
User-agent: Baidu-AI
Disallow: /
# Chan ca BaiduSpider neu ban khong nham thi truong Trung Quoc
User-agent: Baiduspider
Disallow: /Nếu bạn chỉ muốn chặn Baidu-AI mà vẫn giữ BaiduSpider (trường hợp hiếm, khi bạn có một phần nội dung nhắm Trung Quốc):
# Chi chan Baidu AI, giu lai spider thuong
User-agent: Baidu-AI
Disallow: /
User-agent: Baiduspider
Allow: /Sau khi thêm vào, kiểm tra lại bằng Google Search Console tool "robots.txt Tester" hoặc truy cập thẳng yourdomain.com/robots.txt để xác nhận file đã live.
"Kể từ 2023, Baidu triển khai ít nhất 3 biến thể crawler AI riêng biệt cho việc thu thập dữ liệu huấn luyện LLM. Các biến thể này hoạt động độc lập với BaiduSpider truyền thống và không bị chặn bởi các rule cũ." Nguồn: Cloudflare Radar Bot Traffic Report, Q4 2024
FAQ
Baidu-AI có giống BaiduSpider không? Không. BaiduSpider là crawler index kết quả tìm kiếm, còn Baidu-AI thu thập dữ liệu cho huấn luyện mô hình AI. Hai bot khác nhau, cần rule robots.txt riêng.
Chặn Baidu-AI có ảnh hưởng đến SEO Google không? Không ảnh hưởng gì. Robots.txt chặn theo từng User-agent, rule cho Baidu-AI không liên quan đến Googlebot.
Làm sao biết Baidu-AI đang crawl site của mình? Xem server access log, tìm dòng có User-agent: Baidu-AI. Trên cPanel có thể dùng Awstats hoặc tải raw log về lọc bằng grep.
Nếu tôi bán hàng sang Trung Quốc thì sao? Vẫn nên cân nhắc. Baidu-AI không giúp bạn rank trên Baidu Search thông thường. Nếu mục tiêu là SEO Trung Quốc, hãy giữ BaiduSpider nhưng vẫn có thể chặn Baidu-AI vì hai bot phục vụ mục đích khác nhau.
Robots.txt có thực sự ngăn được bot không? Với bot chính thống như Baidu-AI thì có. Bot tuân thủ robots.txt vì Baidu là công ty lớn, vi phạm gây rủi ro pháp lý và uy tín. Bot spam hoặc scraper lậu thì robots.txt không chặn được, cần giải pháp khác ở tầng server.
Bao lâu thì robots.txt có hiệu lực? Thường trong vòng 24 đến 48 giờ sau khi bot crawl lại file robots.txt. Không cần submit hay thông báo thêm.
Bài viết dựa trên kinh nghiệm 8 năm làm web cho agency và SMB Việt Nam, cập nhật tháng 5 năm 2025. Tôi đã từng để mặc bot crawl rồi thắc mắc tại sao hosting chậm. Đừng lặp lại sai đó.