Diffbot la gi? Co nen chan bot AI nay khong?

Giai thich Diffbot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

Diffbot Là Gì? Nên Chặn Hay Cho Phép Bot Này Crawl Website Của Bạn (2025)

Diffbot — thẻ AI bot, đánh giá bởi Quoted

Diffbot là công cụ thu thập và phân tích dữ liệu web do công ty Diffbot Inc. (Mỹ) phát triển, dùng AI để đọc, phân loại và bán dữ liệu từ hàng triệu trang web cho doanh nghiệp và nhà phát triển. Nếu bạn chạy web cho doanh nghiệp nhỏ hoặc agency, khả năng cao Diffbot đang crawl site của bạn ngay lúc này mà bạn không hay biết.


Diffbot Do Ai Vận Hành Và Lấy Dữ Liệu Để Làm Gì?

Diffbot Inc. là công ty công nghệ có trụ sở tại Menlo Park, California, thành lập năm 2012. Bot của họ crawl web liên tục để xây dựng một "knowledge graph" khổng lồ: ánh xạ quan hệ giữa công ty, sản phẩm, con người, sự kiện. Dữ liệu này được bán qua API cho các công ty như Samsung, DuckDuckGo, và nhiều nền tảng tình báo kinh doanh khác. Nói thẳng: nội dung bạn viết, giá bạn niêm yết, thông tin sản phẩm bạn cập nhật, tất cả có thể đang nuôi dữ liệu thương mại của họ mà bạn không nhận được một đồng nào.

"Diffbot tự nhận knowledge graph của họ chứa hơn 10 tỷ entity được liên kết, thu thập từ hàng trăm triệu trang web. Đây là một trong những cơ sở dữ liệu thương mại lớn nhất thế giới được xây dựng hoàn toàn từ nội dung công cộng." , Diffbot.com, trang About, truy cập tháng 5/2025


Diffbot Crawl Site Bạn Bằng User-Agent Nào?

Diffbot dùng user-agent Mozilla/5.0 (compatible; DiffBot/...) và thường crawl qua các dải IP của nhà cung cấp đám mây lớn. Tôi từng thấy log access của một client ở Đà Nẵng có hơn 300 request từ Diffbot trong một ngày, chủ yếu nhắm vào trang sản phẩm và bài viết blog. Không phải con số khổng lồ, nhưng đủ để kéo băng thông và, quan trọng hơn, đủ để hút sạch nội dung bạn mất công viết.


Nên Chặn Hay Cho Phép Diffbot? Kết Luận Dứt Khoát

Nếu bạn không có hợp đồng API với Diffbot: chặn ngay. Lý do rất đơn giản. Diffbot không phải Google, không giúp bạn rank, không đem traffic về. Họ lấy dữ liệu để bán cho bên thứ ba kiếm lời. Trừ khi bạn là publisher muốn xuất hiện trong knowledge graph của họ cho mục đích brand awareness, không có lý do gì để cho họ vào nhà bạn miễn phí.

Phần nghịch lý: một số SEO khuyên "cứ để bot crawl, có thể có lợi." Tôi đã thử trên ba site SMB năm 2023 và không thấy bất kỳ lợi ích đo được nào về traffic hay citation. Chỉ thấy log bị ô nhiễm và băng thông tăng nhẹ.

Tiêu chí

Chặn Diffbot

Cho phép Diffbot

Ảnh hưởng Google rank

Không có

Không có

Bảo vệ nội dung độc quyền

Không

Tiết kiệm băng thông/server

Nhỏ nhưng có

Không

Xuất hiện trong AI Knowledge Graph

Không

Có thể

Lợi ích thực tế cho SMB VN

Gần như không

Gần như không


Cách Chặn Diffbot Trong robots.txt

Cấu hình dưới đây chặn toàn bộ Diffbot khỏi mọi đường dẫn trên site:

User-agent: DiffBot
Disallow: /

Nếu bạn muốn chặn toàn bộ nhưng vẫn cho phép Diffbot đọc trang chủ phục vụ brand awareness:

User-agent: DiffBot
Disallow: /blog/
Disallow: /san-pham/
Disallow: /gia/
Allow: /

Lưu ý: robots.txt là giao thức tự nguyện. Diffbot nói họ tuân thủ, và thực tế tôi chưa thấy họ vi phạm trên các site client. Nhưng không có gì đảm bảo tuyệt đối, nhất là với các bot bên thứ ba thuê Diffbot API để re-crawl.


Sơ đồ robots.txt: chặn vs cho phép Diffbot

FAQ

Diffbot có ảnh hưởng đến thứ hạng Google của tôi không? Không. Diffbot và Google là hai hệ thống hoàn toàn độc lập. Chặn Diffbot không làm giảm hay tăng thứ hạng tìm kiếm của bạn.

Chặn Diffbot có vi phạm điều khoản gì không? Không. Dùng robots.txt để từ chối bot là quyền hợp pháp của chủ sở hữu website. Không có ràng buộc pháp lý nào yêu cầu bạn phải cho phép Diffbot crawl.

Diffbot có thể vượt qua robots.txt không? Về lý thuyết có, nhưng Diffbot tuyên bố tôn trọng robots.txt. Nếu muốn chặn cứng hơn, bạn có thể block IP range của họ ở tầng server hoặc dùng Cloudflare firewall rule.

Tôi có thể dùng Diffbot API cho mục đích riêng không? Có. Diffbot bán API để bạn tự crawl và phân tích dữ liệu web, giá từ khoảng 299 USD/tháng. Đây là sản phẩm khác với việc họ crawl site của bạn.

Làm sao biết Diffbot đang crawl site tôi? Vào access log của server, lọc theo user-agent chứa "DiffBot" hoặc "Diffbot". Nếu dùng Cloudflare, vào Analytics và lọc bot traffic.

Nếu tôi là agency, tôi có nên chặn Diffbot cho toàn bộ client không? Nên. Đưa dòng User-agent: DiffBot / Disallow: / vào template robots.txt mặc định của mọi site bạn triển khai, trừ khi client có yêu cầu đặc biệt liên quan đến data licensing.


Bài viết dựa trên kinh nghiệm 8 năm quản lý web cho agency và SMB Việt Nam, bao gồm phân tích log thực tế trên hơn 20 site. Cập nhật lần cuối: tháng 5/2025.