GPTBot la gi? Co nen chan bot AI nay khong?

Giai thich GPTBot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

GPTBot là gì và bạn có nên chặn nó trên website 2024?

GPTBot — thẻ AI bot, đánh giá bởi Quoted

GPTBot là crawler của OpenAI, tự động thu thập nội dung web để huấn luyện các mô hình AI như GPT-4 và GPT-4o. Nó hoạt động liên tục, không xin phép từng trang, và dữ liệu nó lấy được dùng để cải thiện ChatGPT cùng các sản phẩm OpenAI khác.

Vì sao điều này quan trọng với bạn: Theo dữ liệu Cloudflare 2023, GPTBot nằm trong top 5 bot tiêu thụ băng thông nhiều nhất trên web. Nếu bạn trả tiền hosting theo lưu lượng hoặc đang bảo vệ nội dung độc quyền, không biết đến nó là đang để tiền chảy đi mà không nhận lại gì.


GPTBot do ai vận hành và nó crawl như thế nào?

GPTBot do OpenAI vận hành, crawl từ dải IP cố định với user-agent "GPTBot". Nó tuân thủ robots.txt nếu bạn cấu hình đúng. Tôi từng gặp trường hợp một agency ở Đà Nẵng bị crawl hơn 2.000 trang blog mỗi tuần mà không hay, chỉ phát hiện khi check log server. Bot này không phá web, nhưng nó lấy nội dung bạn mất công viết rồi đưa vào hệ thống của người khác.

"OpenAI công bố GPTBot có thể bị chặn hoàn toàn qua robots.txt. Tuy nhiên, dữ liệu đã thu thập trước khi bạn chặn thì không bị xóa khỏi tập huấn luyện.", OpenAI documentation, 2023


GPTBot khác gì các bot khác như Googlebot?

GPTBot thu thập dữ liệu để huấn luyện AI, không mang lại traffic hay thứ hạng tìm kiếm cho bạn. Googlebot thu thập để lập chỉ mục và trả về traffic thực. Đây là khác biệt sống còn mà nhiều người bỏ qua.

Tiêu chí

Googlebot

GPTBot

Mục đích

Lập chỉ mục tìm kiếm

Huấn luyện mô hình AI

Lợi ích trực tiếp cho bạn

Có (traffic, ranking)

Không có

Tuân thủ robots.txt

Ảnh hưởng băng thông

Thấp

Trung bình đến cao

Nên chặn?

Không

Tùy mục tiêu


Nên chặn hay cho phép GPTBot?

Kết luận dứt khoát: Nếu bạn bán nội dung hoặc sống nhờ nội dung, hãy chặn GPTBot ngay hôm nay.

Lập luận ngược lại thường là "để GPTBot crawl giúp AI biết đến thương hiệu bạn hơn". Tôi hiểu lý do đó, nhưng chưa có bằng chứng nào cho thấy để GPTBot crawl làm tăng traffic hay doanh thu cho SMB Việt Nam. Ngược lại, nếu bạn có khoá học online, tài liệu tư vấn, hoặc bài viết chuyên sâu mà đang bán, GPTBot lấy xong là ChatGPT có thể trả lời thay bạn. Khách không cần vào web bạn nữa.

Trường hợp duy nhất nên cho phép là bạn đang làm nghiên cứu, muốn OpenAI đối tác, hoặc website chỉ có nội dung marketing chung không có giá trị cạnh tranh. Số đó rất ít trong tệp SMB tôi làm việc.


Cách chặn hoặc cấu hình GPTBot trong robots.txt

Thêm vào file robots.txt ở thư mục gốc website. Chặn toàn bộ:

User-agent: GPTBot
Disallow: /

Nếu bạn muốn cho phép GPTBot crawl phần giới thiệu công ty nhưng chặn nội dung trả phí:

User-agent: GPTBot
Disallow: /khoa-hoc/
Disallow: /tai-lieu/
Disallow: /blog/
Allow: /gioi-thieu/
Allow: /lien-he/

File robots.txt nằm tại yourdomain.com/robots.txt. Nếu bạn dùng WordPress, plugin Yoast hoặc RankMath đều có giao diện chỉnh file này mà không cần sửa tay.


Sơ đồ robots.txt: chặn vs cho phép GPTBot

FAQ

GPTBot có ảnh hưởng đến SEO nếu tôi chặn nó không? Không. GPTBot và Googlebot hoàn toàn độc lập. Chặn GPTBot không tác động gì đến thứ hạng tìm kiếm Google của bạn.

GPTBot có crawl khi tôi đã chặn trong robots.txt không? OpenAI cam kết tuân thủ robots.txt. Thực tế từ các báo cáo độc lập năm 2023 cho thấy GPTBot dừng crawl sau khi bị chặn đúng cú pháp.

Tôi không có file robots.txt thì sao? Bạn cần tạo ngay. Nếu dùng WordPress, vào Yoast SEO, mục "Tools" rồi chọn "File editor" để tạo và sửa. Mất khoảng 3 phút.

Ngoài GPTBot còn bot AI nào khác cần chặn không? Có ít nhất 4 bot AI đáng chú ý: CCBot (Common Crawl, nguồn dữ liệu cho nhiều AI), Google-Extended (Bard/Gemini), anthropic-ai (Claude), FacebookBot (Meta AI). Mỗi cái đều có user-agent riêng và đều tuân thủ robots.txt.

Dữ liệu GPTBot đã lấy trước khi tôi chặn có bị xóa không? Không. OpenAI xác nhận rõ điều này. Chặn chỉ ngăn việc thu thập từ thời điểm đó trở đi, không hồi tố.

Website nhỏ ít người biết thì GPTBot có crawl không? Có, GPTBot không chọn lọc theo độ nổi tiếng. Bất kỳ URL nào nó tìm thấy qua link hoặc sitemap đều bị crawl. Tôi từng thấy landing page 3 tháng tuổi của khách hàng mới làm đã xuất hiện trong log GPTBot.


Người viết làm web 8 năm cho agency và SMB Việt Nam, từng bỏ sót cấu hình robots.txt 6 tháng liên tiếp cho một khách hàng bán khoá học và chỉ phát hiện ra khi kiểm tra server log. Bài cập nhật tháng 11/2024.