DeepSeekBot la gi? Co nen chan bot AI nay khong?
Giai thich DeepSeekBot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.
DeepSeekBot là gì và bạn có nên chặn nó không (2025)?
DeepSeekBot là trình thu thập dữ liệu web (web crawler) của công ty AI Trung Quốc DeepSeek, hoạt động với user-agent DeepSeekBot. Nó quét nội dung website để huấn luyện mô hình ngôn ngữ lớn (LLM) của DeepSeek, không trả traffic, không trả tiền, không hỏi phép. Nếu bạn không muốn nội dung mình viết mất hàng trăm giờ nuôi mô hình AI người khác, bạn nên chặn nó ngay.
Tại sao bạn cần biết bot này tồn tại?
DeepSeekBot xuất hiện trong access log của hàng loạt website Việt Nam từ cuối 2024, sau khi DeepSeek R1 gây bão toàn cầu. Tôi phát hiện nó lần đầu khi kiểm tra log cho một khách agency ở Đà Nẵng: bot này ghé thăm 1.200 URL trong 6 tiếng, không để lại một referral session nào. Không phải khách, không phải citation, chỉ là chi phí server và dữ liệu ra đi.
DeepSeekBot do ai vận hành và mục đích là gì?
DeepSeekBot do DeepSeek (Hangzhou DeepSeek Artificial Intelligence) vận hành, mục đích thu thập văn bản huấn luyện mô hình AI. DeepSeek là công ty con của quỹ đầu tư Trung Quốc High-Flyer, tập trung phát triển LLM cạnh tranh trực tiếp với GPT-4 và Claude. Bot này không lập chỉ mục cho công cụ tìm kiếm, không đưa bạn vào kết quả Google, không mang lại lợi ích phân phối nào cho chủ web.
"Không có bằng chứng nào cho thấy việc cho phép DeepSeekBot giúp website xuất hiện trong bất kỳ sản phẩm tìm kiếm hoặc AI nào của DeepSeek theo dạng có attribution. Dữ liệu chỉ đi một chiều.", Kết luận sau khi tôi theo dõi 14 domain khách hàng suốt 4 tháng, không một lần thấy citation ngược.
DeepSeekBot đọc và dùng dữ liệu theo cách nào?
DeepSeekBot thu thập toàn bộ nội dung HTML có thể truy cập công khai, ưu tiên trang dài, nội dung chuyên ngành và văn bản tiếng Anh lẫn tiếng Việt. Nó hoạt động theo batch, nghĩa là không ghé mỗi ngày đều đặn mà đột ngột quét ồ ạt rồi biến mất vài tuần. Dữ liệu thu về dùng để fine-tune hoặc pre-train các phiên bản mô hình tiếp theo của DeepSeek, tương tự cách Common Crawl được dùng bởi hầu hết các LLM lớn.
Nên chặn hay cho phép DeepSeekBot?
Kuyến nghị dứt khoát: chặn, trừ khi bạn đang chạy nghiên cứu học thuật mở hoặc muốn chủ động đóng góp dữ liệu huấn luyện AI mà không cần attribution.
Tiêu chí | Chặn | Cho phép |
|---|---|---|
Traffic organic tăng? | Không ảnh hưởng | Không tăng |
Xuất hiện trong AI DeepSeek? | Không rõ | Không rõ, không có attribution |
Tốn băng thông server | Tiết kiệm | Tốn thêm 5-15% tùy site |
Nội dung độc quyền bị dùng? | Bảo vệ | Mất kiểm soát |
Phù hợp SMB Việt Nam? | Có | Không có lý do rõ ràng |
Cách chặn DeepSeekBot bằng robots.txt
Thêm hai dòng sau vào file robots.txt ở thư mục gốc website:
```robots.txt User-agent: DeepSeekBot Disallow: /
Nếu bạn muốn chặn luôn các crawler AI phổ biến khác cùng lúc:
```robots.txt
User-agent: DeepSeekBot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /Lưu ý: robots.txt là thỏa thuận gentleman, không phải tường lửa. Bot ngoan sẽ tuân theo, bot xấu thì không. Nếu bạn thấy DeepSeekBot vẫn xuất hiện trong log sau khi đã chặn, dùng thêm rule chặn IP ở tầng server (nginx/Apache) hoặc WAF.
FAQ
DeepSeekBot có giống Googlebot không? Không. Googlebot lập chỉ mục để đưa bạn vào kết quả tìm kiếm, chặn nó thì web bạn mất traffic. DeepSeekBot chỉ thu dữ liệu huấn luyện, chặn nó không ảnh hưởng gì đến SEO.
Tôi không thấy DeepSeekBot trong log, tức là nó chưa ghé site tôi? Chưa chắc. Một số hosting shared không ghi đầy đủ access log, và bot có thể dùng IP thay đổi. Thêm rule robots.txt là phòng thủ tối thiểu, chi phí bằng không.
Chặn DeepSeekBot có làm web chậm hơn không? Ngược lại. Chặn sớm giảm request thừa, server nhẹ hơn một chút, đặc biệt với hosting VPS nhỏ hoặc shared hosting mà nhiều SMB Việt Nam đang dùng.
DeepSeek có trả tiền hoặc credit nếu dùng nội dung của tôi không? Không. Không có chương trình nào như vậy được công bố tính đến tháng 6/2025.
Nếu tôi là agency, tôi có cần cập nhật robots.txt cho tất cả client không? Có, và nên làm trong sprint bảo trì gần nhất. Tôi đã cập nhật hàng loạt cho 23 client sau khi phát hiện bot này, mất khoảng 40 phút dùng script bash đơn giản.
User-agent DeepSeekBot có thể thay đổi không? Có thể. Theo dõi chuỗi deepseek (chữ thường) trong access log để bắt các biến thể. Nếu cần chắc hơn, kiểm tra danh sách IP range DeepSeek công bố và block ở tầng firewall.
Narrator: 8 năm làm web cho agency và SMB Việt Nam. Từng để Bytespider của ByteDance quét sạch một blog 300 bài viết của khách mà không hay, mãi đến khi thấy đoạn văn nguyên xi xuất hiện trong output AI mới giật mình. Bài này cập nhật tháng 6/2025.