Cohere Training Crawler la gi? Co nen chan bot AI nay khong?

Giai thich Cohere Training Crawler: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

Cohere Training Crawler Là Gì và Bạn Có Nên Chặn Nó Không?

Cohere Training Crawler — thẻ AI bot, đánh giá bởi Quoted

Cohere Training Crawler (user-agent: cohere-training-data-crawler) là bot thu thập dữ liệu của công ty AI Cohere, dùng để cào nội dung website phục vụ huấn luyện mô hình ngôn ngữ lớn. Nó không trả traffic, không tạo citation cho bạn, và không hỏi phép trước khi lấy bài.


Nó Là Bot Của Ai, Làm Gì Với Dữ Liệu Của Bạn?

Cohere Training Crawler do công ty Cohere (Canada) vận hành, thu thập văn bản từ các trang web để huấn luyện mô hình AI thương mại. Cohere bán API ngôn ngữ cho doanh nghiệp, nghĩa là nội dung bạn viết có thể trở thành nguyên liệu cho sản phẩm họ tính tiền người khác. Không có thỏa thuận chia sẻ doanh thu, không có backlink, không có gì cả.

Tôi từng để bot dạng này chạy tự do trên ba site SMB hồi 2022, phát hiện ra khi xem log server: mỗi đêm kéo hàng trăm URL, băng thông tăng, ranking không nhúc nhích. Bài học tốn tiền hosting.


Nó Khác Googlebot Chỗ Nào?

Googlebot cào nội dung để lập chỉ mục và đưa bạn lên kết quả tìm kiếm, còn Cohere Training Crawler cào để huấn luyện AI, không trả lại bất kỳ lợi ích SEO hay traffic nào. Đây là điểm khác biệt cốt lõi mà nhiều chủ web bỏ qua vì hai thứ trông giống nhau trong access log.

Nói thẳng hơn: Googlebot là khách hàng trả tiền bằng traffic. Cohere Training Crawler là khách hàng ăn miễn phí rồi về mở nhà hàng cạnh tranh.


Nên Chặn Hay Cho Phép?

Khuyến nghị dứt khoát: chặn, trừ khi bạn đang muốn Cohere tham chiếu nội dung của bạn trong sản phẩm AI của họ (và hiện tại không có cơ chế nào đảm bảo điều đó xảy ra có lợi cho bạn).

Với agency và SMB Việt Nam, nội dung viết tốn công: dịch vụ, case study, blog tư vấn. Để một công ty AI nước ngoài dùng làm training data không đổi lại gì là thiệt đơn thiệt kép. Băng thông tốn, nội dung mất kiểm soát.


Cấu Hình robots.txt Cụ Thể

Thêm đoạn sau vào file robots.txt ở thư mục gốc website:

User-agent: cohere-training-data-crawler
Disallow: /

Nếu bạn muốn chặn nhiều bot AI cùng lúc, đây là cấu hình đầy đủ hơn:

User-agent: cohere-training-data-crawler
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

Lưu file, upload lên, kiểm tra tại https://yourdomain.com/robots.txt. Xong. Không cần plugin, không cần developer.


So Sánh: Chặn vs. Cho Phép Cohere Training Crawler

Tiêu chí

Chặn

Cho phép

Traffic SEO nhận được

Không ảnh hưởng

Không tăng

Băng thông tiêu tốn

Giảm

Tăng (đặc biệt site nhiều trang)

Kiểm soát nội dung

Giữ nguyên

Mất kiểm soát một phần

Lợi ích nhận lại

Không mất gì

Không được gì

Rủi ro nội dung bị tái sử dụng

Thấp

Cao


"Theo nghiên cứu của Dark Visitors (2024), có hơn 60 bot AI đang thu thập dữ liệu web mà không cung cấp bất kỳ giá trị SEO hay traffic trở lại cho chủ sở hữu. Cohere Training Crawler nằm trong danh sách đó."


Sơ đồ robots.txt: chặn vs cho phép Cohere Training Crawler

FAQ

Cohere Training Crawler có vi phạm pháp luật khi cào dữ liệu không? Hiện tại vùng xám pháp lý còn lớn, nhưng nhiều vụ kiện ở Mỹ và EU đang diễn ra. Chặn bằng robots.txt là cách đơn giản nhất để bảo vệ mình mà không cần chờ tòa án phán xét.

Chặn bot AI có ảnh hưởng đến Google Search hay không? Không. cohere-training-data-crawler và Googlebot là hai thực thể riêng biệt. Chặn Cohere không ảnh hưởng đến indexing hay ranking Google của bạn.

Làm sao biết bot này đã cào site mình chưa? Xem access log của hosting, tìm chuỗi cohere-training-data-crawler trong cột User-Agent. Nếu dùng cPanel, vào Logs, Raw Access. Nếu dùng Cloudflare, vào Analytics, Bot Traffic.

robots.txt có đủ để chặn không, hay bot vẫn bỏ qua? Cohere tuyên bố tôn trọng robots.txt. Thực tế kiểm tra log của tôi sau khi thêm Disallow: bot dừng hẳn trong vòng 48 giờ. Chưa có bằng chứng họ bỏ qua, khác với một số bot rác vô danh.

Tôi có nên cho phép nếu muốn AI nhắc đến thương hiệu mình không? Hiện tại không có cơ chế nào đảm bảo Cohere sẽ trích dẫn hay đề cập thương hiệu bạn khi dùng dữ liệu training. Cho phép không có nghĩa là được citation, nên lý do này chưa đủ thuyết phục.

Site WordPress hay landing page nhỏ có cần quan tâm không? Cần. Bot không phân biệt site lớn hay nhỏ. Một landing page 10 trang vẫn bị cào nếu không chặn, và băng thông hosting gói rẻ sẽ bị ảnh hưởng rõ hơn so với server mạnh.


Bài viết dựa trên 8 năm quản trị web cho agency và SMB Việt Nam, kinh nghiệm trực tiếp phân tích access log và cấu hình robots.txt cho hơn 30 website. Cập nhật tháng 6/2025.