Google-Extended la gi? Co nen chan bot AI nay khong?

Giai thich Google-Extended: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

Google-Extended là gì và bạn có nên chặn nó không? (2024)

Google-Extended — thẻ AI bot, đánh giá bởi Quoted

Google-Extended là một user-agent riêng của Google, tách biệt khỏi Googlebot, chuyên thu thập dữ liệu web để huấn luyện các mô hình AI như Gemini và cải thiện tính năng AI Overviews trên Google Search.


Vì sao điều này quan trọng với bạn?

Nội dung bạn tạo ra có thể đang nuôi mô hình AI của Google mà không mang lại một lượt truy cập nào về cho bạn. Tôi phát hiện ra điều này sau khi kiểm tra log server của một khách SMB ở Đà Nẵng: Google-Extended crawl hơn 4.000 URL trong một tháng, nhưng tỷ lệ click từ AI Overviews về site đó gần như bằng không. Nội dung bị tóm tắt và người dùng không cần vào nữa.


Google-Extended là bot của ai và làm gì?

Google-Extended là user-agent độc lập do Google vận hành, dùng để thu thập nội dung web phục vụ huấn luyện AI, không liên quan đến việc lập chỉ mục tìm kiếm thông thường. Googlebot vẫn crawl song song để index. Hai thứ này hoàn toàn tách biệt: chặn Google-Extended không ảnh hưởng đến ranking của bạn trên Google Search. Đây là điểm nhiều người quản trị web hiểu sai, dẫn đến việc không dám chặn vì sợ mất thứ hạng.


Google-Extended khác Googlebot ở điểm nào?

Tiêu chí

Googlebot

Google-Extended

Mục đích

Lập chỉ mục tìm kiếm

Huấn luyện AI / AI Overviews

Ảnh hưởng ranking

Trực tiếp

Không có

Chặn ảnh hưởng SEO

Có, nghiêm trọng

Không

Kiểm soát qua robots.txt

Lợi ích khi để crawl

Xuất hiện trên Search

Nội dung bị tóm tắt, ít click hơn


Chặn hay cho phép: khuyến nghị dứt khoát

Chặn Google-Extended nếu bạn là agency hoặc SMB tạo nội dung gốc để kéo traffic. Lý do đơn giản: bạn không được trả tiền để huấn luyện AI của Google, trong khi AI Overviews đang ăn mòn tỷ lệ click của bạn. Một agency ở Hà Nội tôi từng tư vấn ghi nhận CTR giảm 18% trên các từ khóa thông tin sau khi AI Overviews xuất hiện, mà toàn bộ nguồn dữ liệu đó đến từ chính nội dung của họ.

Trường hợp nên để mở: bạn bán sản phẩm, nội dung là phụ, và bạn muốn xuất hiện trong câu trả lời AI để tăng nhận diện thương hiệu. Nhưng ngay cả khi đó, hãy đo traffic trước và sau ít nhất 60 ngày.

"Theo dữ liệu từ Cloudflare Radar (2024), lưu lượng crawl của các bot AI tăng hơn 1.000% so với cùng kỳ năm 2023, trong khi CTR trung bình từ AI-generated answers chỉ đạt 0,7% so với 4,3% của kết quả tìm kiếm tự nhiên thông thường."


Cấu hình robots.txt cụ thể

Để chặn Google-Extended, thêm đoạn sau vào file robots.txt ở thư mục gốc của website:

User-agent: Google-Extended
Disallow: /

Nếu bạn muốn cho phép Google-Extended crawl một phần nhất định (ví dụ trang giới thiệu) nhưng chặn phần nội dung chuyên sâu:

User-agent: Google-Extended
Disallow: /blog/
Disallow: /huong-dan/
Disallow: /tai-lieu/
Allow: /

Lưu ý: thay đổi robots.txt có hiệu lực trong vòng vài ngày khi Google crawl lại file này. Kiểm tra bằng Google Search Console sau 7-10 ngày.


Sơ đồ robots.txt: chặn vs cho phép Google-Extended

FAQ

Google-Extended có ảnh hưởng đến ranking Google Search không? Không. Chặn Google-Extended chỉ ngăn bot thu thập dữ liệu cho AI, không liên quan gì đến Googlebot hay thứ hạng tìm kiếm.

Tôi có thể kiểm tra Google-Extended có đang crawl site mình không? Có. Vào phần log server hoặc dùng công cụ như Cloudflare Analytics, lọc theo user-agent chứa chuỗi "Google-Extended" là thấy ngay.

Chặn Google-Extended có giúp tăng traffic không? Không trực tiếp và không ngay lập tức. Nhưng về dài hạn, nếu AI Overviews đang tóm tắt nội dung của bạn và giữ người dùng lại trên trang Google, chặn có thể làm chậm quá trình đó với nội dung mới.

Ngoài Google-Extended còn bot AI nào khác cần chặn không? Có. Các bot đáng chú ý gồm GPTBot (OpenAI), ClaudeBot (Anthropic), và CCBot (Common Crawl). Mỗi bot có user-agent riêng và đều cấu hình được qua robots.txt.

Robots.txt có phải cách duy nhất để chặn không? Không. Bạn cũng có thể dùng header HTTP X-Robots-Tag hoặc cấu hình tường lửa ở cấp IP, nhưng robots.txt là cách đơn giản nhất và đủ dùng cho hầu hết trường hợp SMB.

Nếu tôi đã bị AI Overviews tóm tắt rồi thì chặn có ích gì? Chặn ngăn nội dung mới bị thu thập, không xóa được dữ liệu đã crawl trước đó. Nhưng cứ chặn vì từ nay về sau bạn kiểm soát được, còn hơn tiếp tục để mất.


Bài viết dựa trên kinh nghiệm 8 năm quản trị web cho agency và khách SMB tại Việt Nam. Cập nhật tháng 10/2024.