Cohere AI la gi? Co nen chan bot AI nay khong?

Giai thich Cohere AI: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

Cohere AI là gì và có nên chặn bot này trên website của bạn không? (2025)

Cohere AI — thẻ AI bot, đánh giá bởi Quoted

Cohere AI là nền tảng AI doanh nghiệp do công ty Cohere (Canada) phát triển, chuyên cung cấp mô hình ngôn ngữ lớn cho doanh nghiệp qua API. Bot thu thập dữ liệu của họ có tên cohere-ai, thường xuất hiện trong server log với user-agent chứa chuỗi cohere-ai.


Cohere AI cụ thể là gì và ai đứng sau nó?

Cohere là công ty AI Canada thành lập năm 2019, cung cấp mô hình ngôn ngữ lớn (LLM) cho doanh nghiệp muốn tích hợp AI vào sản phẩm mà không cần tự xây hạ tầng. Khác với OpenAI hay Anthropic nhắm vào người dùng cuối, Cohere tập trung hoàn toàn vào B2B: bán API cho công ty tài chính, logistics, y tế. Khách hàng của họ gồm Oracle, Fujitsu, McKinsey. Đây không phải startup vô danh, nhưng cũng không phải tên mà chủ SMB Việt Nam thường gặp trong bản tin.

Bot cohere-ai thu thập dữ liệu web để làm gì?

Bot cohere-ai crawl nội dung công khai trên web để huấn luyện và cải thiện mô hình ngôn ngữ thương mại của Cohere. Nội dung bạn viết, bao gồm bài blog, trang dịch vụ, case study, đều có thể trở thành dữ liệu huấn luyện cho sản phẩm họ bán lại cho doanh nghiệp khác. Bạn không được hỏi, không được trả tiền, không được ghi nhận. Tôi từng thấy log của một agency Đà Nẵng bị cohere-ai crawl hơn 800 URL trong một tuần mà chủ site không hay biết.


Cohere AI so với các bot AI khác: nên lo đến mức nào?

Tiêu chí

cohere-ai

GPTBot (OpenAI)

ClaudeBot (Anthropic)

Mục đích crawl

Huấn luyện mô hình thương mại

Huấn luyện GPT

Huấn luyện Claude

Tôn trọng robots.txt

Có (theo tuyên bố)

Minh bạch opt-out

Trung bình

Cao (tài liệu rõ)

Cao

Mức độ phổ biến log SMB VN

Thấp đến trung bình

Cao

Trung bình

Lợi ích trực tiếp cho site

Không có

Không có

Không có

Ba bot này đều không mang traffic về cho bạn. Sự khác biệt duy nhất có nghĩa thực tế là mức độ minh bạch, và Cohere thua OpenAI ở điểm này.


Nên chặn hay cho phép cohere-ai?

Khuyến nghị dứt khoát: chặn, trừ khi bạn đang chạy thử nghiệm tích hợp API Cohere hoặc có thỏa thuận dữ liệu với họ.

Lý do đơn giản: bot này không index để trả traffic về cho bạn như Googlebot, không mang citation như ChatGPT đôi khi làm, và không có cơ chế nào đảm bảo nội dung của bạn được ghi nhận khi Cohere bán mô hình cho khách hàng doanh nghiệp. Bạn đang cho không dữ liệu để người khác kiếm tiền.

"Cohere định giá vòng Series C năm 2023 ở mức 2,1 tỷ USD, phần lớn giá trị đó nằm ở chất lượng dữ liệu huấn luyện. Dữ liệu đó đến từ đâu thì bạn đã biết.", Phân tích từ The Information, tháng 6/2023.

Tôi từng để ngỏ GPTBot với hy vọng được xuất hiện trong câu trả lời ChatGPT, và thực tế điều đó đôi khi xảy ra với nội dung chuyên ngành hẹp. Với Cohere, tôi chưa thấy lợi ích tương đương nào sau hai năm theo dõi log.


Cấu hình robots.txt để chặn cohere-ai

Thêm đoạn sau vào file robots.txt ở thư mục gốc website của bạn:

# Chan bot Cohere AI
User-agent: cohere-ai
Disallow: /

Nếu bạn muốn chặn cả nhóm bot AI huấn luyện mô hình mà không mang lại traffic, dùng cấu hình đầy đủ hơn:

# Chan cac bot AI huan luyen mo hinh
User-agent: cohere-ai
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: CCBot
Disallow: /

# Cho phep cac bot index va traffic binh thuong
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sau khi thêm, dùng Google Search Console hoặc truy cập thẳng yourdomain.com/robots.txt để kiểm tra file đã được deploy đúng chưa. Một sai lầm tôi từng mắc là edit file nhưng hosting cache cũ còn sống thêm 24 giờ.


Sơ đồ robots.txt: chặn vs cho phép Cohere AI

FAQ

cohere-ai có ảnh hưởng đến SEO của tôi không? Bot này không phải Googlebot nên không ảnh hưởng trực tiếp đến thứ hạng. Tuy nhiên nếu server yếu và bị crawl nhiều, thời gian phản hồi chậm có thể gián tiếp ảnh hưởng đến Core Web Vitals.

Nếu tôi chặn Cohere AI, tôi có mất gì không? Không có bằng chứng nào cho thấy cho phép cohere-ai crawl giúp bạn xuất hiện trong sản phẩm của Cohere theo cách có lợi. Bạn không mất traffic, không mất ranking khi chặn.

Cohere AI có tôn trọng robots.txt không? Theo tuyên bố chính thức của Cohere, bot của họ tôn trọng chỉ thị Disallow trong robots.txt. Tôi chưa có bằng chứng ngược lại, nhưng việc xác minh bằng log sau 2 đến 4 tuần là khôn ngoan.

User-agent chính xác của bot này là gì để tôi kiểm tra log? Chuỗi cần tìm trong access log là cohere-ai. Bạn có thể grep bằng lệnh grep "cohere-ai" /var/log/nginx/access.log nếu dùng Nginx.

Tôi có nên chặn tất cả bot AI không? Tùy mục tiêu. Nếu bạn đang xây dựng thương hiệu và muốn được trích dẫn trong ChatGPT, giữ GPTBot. Với các bot không có cơ chế citation rõ ràng như cohere-ai, chặn là lựa chọn hợp lý hơn cho SMB không có đội ngũ theo dõi dữ liệu.

Làm sao biết bot đã bị chặn thành công? Kiểm tra log sau 48 đến 72 giờ. Nếu cohere-ai còn xuất hiện sau một tuần, có thể file robots.txt chưa được serve đúng hoặc bot đang bỏ qua chỉ thị, và lúc đó cần báo cáo trực tiếp lên trang opt-out của Cohere.


Bài viết dựa trên kinh nghiệm 8 năm quản lý web cho agency và SMB Việt Nam, theo dõi server log và cấu hình robots.txt cho hơn 30 domain. Cập nhật tháng 1/2025.