KagiBot la gi? Co nen chan bot AI nay khong?
Giai thich KagiBot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.
KagiBot là gì và bạn có nên chặn nó trên website không? (2025)
KagiBot là trình thu thập dữ liệu web (web crawler) của Kagi Search, một công cụ tìm kiếm trả phí có trụ sở tại Mỹ. Bot này thu thập nội dung trang web để xây dựng chỉ mục tìm kiếm riêng cho Kagi, không phục vụ Google hay Bing. Thị phần Kagi còn rất nhỏ ở Việt Nam năm 2025, nên với hầu hết SMB trong nước, traffic từ đây gần bằng không.
KagiBot là gì và ai đứng sau nó?
KagiBot là bot thu thập dữ liệu chính thức của Kagi Inc., công ty tìm kiếm độc lập thành lập năm 2018 bởi Vladimir Prelovac. Kagi khác Google ở điểm cốt lõi: người dùng trả tiền để dùng (khoảng 10 USD/tháng), không có quảng cáo, không bán dữ liệu người dùng. Kagi thu thập web để xây chỉ mục của riêng mình thay vì mua lại từ Bing như một số engine nhỏ khác.
User-agent chính thức của bot này là KagiBot. Nó tuân thủ robots.txt theo tài liệu Kagi công bố, nghĩa là nếu bạn chặn, nó sẽ dừng.
KagiBot đọc và dùng dữ liệu của bạn để làm gì?
KagiBot thu thập văn bản, tiêu đề, metadata để đưa trang web vào kết quả tìm kiếm Kagi. Dữ liệu không dùng cho quảng cáo, không bán cho bên thứ ba theo chính sách Kagi. Đây là điểm khác biệt so với một số crawler mờ ám khác mà tôi từng thấy trong log server của khách.
Tuy nhiên, "không bán dữ liệu" không có nghĩa là nội dung của bạn không bị đưa vào AI tóm tắt. Kagi có tính năng tóm tắt trang bằng AI cho người dùng trả phí, và nội dung bạn viết có thể bị rút gọn mà người dùng không bao giờ click vào site của bạn. Đây chính xác là tình huống mà một agency ở Đà Nẵng từng phàn nàn với tôi khi thấy traffic giảm dù ranking tốt.
Nên chặn hay cho phép KagiBot?
Khuyến nghị dứt khoát: Chặn nếu bạn là SMB Việt Nam, cho phép nếu bạn cần tiếp cận người dùng quốc tế trả phí.
Kagi có khoảng 1,5 triệu người dùng toàn cầu tính đến đầu 2025, phần lớn là developer và người dùng kỹ thuật ở Mỹ, châu Âu. Nếu bạn bán dịch vụ nội địa như phòng khám, quán ăn, công ty logistics tại Việt Nam, traffic từ Kagi về cơ bản không tồn tại. Để bot crawl chỉ tốn băng thông server và không đổi lại gì.
Ngược lại, nếu bạn làm SaaS, blog kỹ thuật tiếng Anh, hoặc nhắm thị trường Tây thì nên để KagiBot qua. Người dùng Kagi có xu hướng đọc kỹ và chuyển đổi tốt hơn trung bình.
"Kagi đạt 1,5 triệu người dùng vào tháng 1/2025 và đang tăng trưởng 20-30% mỗi quý, chủ yếu trong nhóm developer và kỹ sư phần mềm tại Bắc Mỹ.", Kagi Blog, tháng 2/2025
So sánh: Chặn vs Cho phép KagiBot
Tiêu chí | Chặn KagiBot | Cho phép KagiBot |
|---|---|---|
Tiết kiệm băng thông | Có | Không |
Traffic thực tế về site (SMB Việt Nam) | Không đáng kể | Gần như bằng không |
Rủi ro nội dung bị tóm tắt AI | Giảm | Có thể xảy ra |
Lợi ích nếu nhắm thị trường quốc tế | Mất cơ hội nhỏ | Có cơ hội index |
Tuân thủ robots.txt | Bot tuân thủ | Bot tuân thủ |
Ảnh hưởng đến Google ranking | Không có | Không có |
Cấu hình robots.txt cụ thể
Nếu bạn muốn chặn KagiBot hoàn toàn:
User-agent: KagiBot
Disallow: /Nếu bạn chỉ muốn chặn crawl thư mục admin và trang thanh toán nhưng vẫn cho index nội dung:
User-agent: KagiBot
Disallow: /admin/
Disallow: /checkout/
Disallow: /wp-admin/
Allow: /Nếu bạn cho phép hoàn toàn (không cần thêm gì, nhưng để rõ ràng):
User-agent: KagiBot
Allow: /Lưu ý: File robots.txt đặt ở thư mục gốc, ví dụ https://yourdomain.com/robots.txt. Sai chỗ đặt thì bot đọc không thấy và crawl hết.
FAQ
KagiBot có ảnh hưởng đến thứ hạng Google không? Không. KagiBot và Googlebot là hai hệ thống hoàn toàn độc lập. Chặn hay cho phép KagiBot không tác động gì đến SEO Google của bạn.
Bot này có tuân thủ robots.txt không? Có, theo tài liệu chính thức của Kagi. Tôi chưa gặp trường hợp nào KagiBot bỏ qua chỉ thị Disallow trong log khách hàng của mình.
Làm sao biết KagiBot đang crawl site của mình? Vào log server (access log) tìm chuỗi KagiBot trong user-agent. Hoặc dùng Cloudflare Analytics, lọc theo bot traffic.
KagiBot có lấy dữ liệu để huấn luyện AI không? Kagi chưa công bố rõ chính sách này tính đến giữa 2025. Họ dùng AI để tóm tắt nội dung cho người dùng, nhưng không tuyên bố dùng nội dung crawl để train model. Nếu bạn lo ngại, chặn là giải pháp an toàn nhất.
Tôi có cần đăng ký hay xác minh gì với Kagi để được index không? Không cần. KagiBot tự crawl, không có Search Console kiểu Google. Bạn không kiểm soát được trang nào được index, chỉ kiểm soát được có cho crawl hay không qua robots.txt.
Site tôi không có tiếng Anh thì có lợi ích gì từ Kagi không? Thực tế gần như không có. Người dùng Kagi chủ yếu đọc tiếng Anh. Nếu toàn bộ nội dung của bạn là tiếng Việt nhắm thị trường nội địa, traffic từ Kagi sẽ không đáng kể.
Bài viết dựa trên 8 năm làm web cho agency và SMB Việt Nam, đọc log server thực tế và theo dõi tài liệu Kagi. Cập nhật tháng 6/2025.