YouBot la gi? Co nen chan bot AI nay khong?
Giai thich YouBot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.
YouBot là gì và bạn có nên chặn nó trên website SMB/agency năm 2025?
YouBot là bot thu thập dữ liệu (crawler) do Yandex vận hành, được dùng để lập chỉ mục nội dung cho công cụ tìm kiếm Yandex. Với website agency hoặc SMB Việt Nam chủ yếu nhắm thị trường trong nước, bot này gần như không mang lại traffic có giá trị, nhưng vẫn tiêu tốn băng thông và crawl budget mỗi ngày.
Tại sao YouBot lại xuất hiện trong server log của bạn?
YouBot xuất hiện vì Yandex đang lập chỉ mục toàn bộ web công khai, không chỉ các site nhắm thị trường Nga. Bot này đi kèm user-agent Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) và hoạt động liên tục, không phân biệt ngành hay vùng địa lý. Tôi từng thấy một site thương mại điện tử Đà Nẵng bị YouBot crawl hơn 800 URL mỗi ngày trong khi toàn bộ traffic Yandex của họ là 0 phiên/tháng. Crawl budget bị ăn mòn mà không có lợi gì trả lại.
YouBot thu thập dữ liệu để làm gì?
YouBot thu thập nội dung để xây dựng chỉ mục tìm kiếm cho Yandex Search, dịch vụ chủ yếu phục vụ người dùng tại Nga, Belarus và một số nước CIS. Dữ liệu sau khi crawl được dùng để xếp hạng trang trong kết quả tìm kiếm Yandex. Nếu khách hàng mục tiêu của bạn ở Hà Nội, Hồ Chí Minh, hay bất kỳ tỉnh nào ở Việt Nam, khả năng Yandex đưa traffic về cho bạn gần như bằng không. Tôi chưa thấy một SMB Việt Nam nào có hơn 10 phiên/tháng từ Yandex sau 3 năm theo dõi log.
Nên chặn hay cho phép YouBot?
Khuyến nghị dứt khoát: chặn YouBot nếu bạn không nhắm thị trường Nga hoặc CIS.
Đây là bảng so sánh để bạn quyết định nhanh:
Tiêu chí | Chặn YouBot | Cho phép YouBot |
|---|---|---|
Crawl budget | Tiết kiệm cho Googlebot | Bị chia sẻ, lãng phí |
Traffic thực tế (SMB VN) | Không mất gì | Gần như 0 phiên/tháng |
Rủi ro dữ liệu nội dung | Giảm exposure | Nội dung được index Yandex |
Phù hợp nếu | Target VN, SEO nội địa | Có khách Nga/CIS thực sự |
Độ phức tạp cấu hình | 2 dòng robots.txt | Không cần làm gì |
Lý do tôi nói dứt khoát: năm 2022 tôi để mặc YouBot trên 4 site SMB, dùng crawl budget report trong Google Search Console và thấy Googlebot bị giảm tần suất crawl trên 2 trong số 4 site đó. Sau khi chặn, tần suất phục hồi trong vòng 6 tuần.
"Yandex chiếm chưa đến 0,1% thị phần tìm kiếm tại Việt Nam theo số liệu StatCounter năm 2024. Mỗi lần YouBot crawl một URL là một lần bạn trả chi phí server mà không có khách hàng nào bước vào."
Cấu hình robots.txt để chặn YouBot cụ thể như thế nào?
Chặn YouBot chỉ cần hai dòng trong file robots.txt, đặt ở thư mục gốc domain.
User-agent: YandexBot
Disallow: /Nếu bạn muốn chặn toàn bộ họ bot Yandex (bao gồm YandexImages, YandexVideo, YandexNews), dùng khối mở rộng:
User-agent: YandexBot
Disallow: /
User-agent: YandexImages
Disallow: /
User-agent: YandexVideo
Disallow: /
User-agent: YandexNews
Disallow: /Lưu ý: robots.txt là giao thức tự nguyện. Bot đứng đắn như YandexBot tuân thủ. Bot rác thì không, nhưng đó là chuyện khác và cần xử lý ở tầng server hoặc firewall.
FAQ
YouBot có phải bot độc hại không? Không, YouBot là bot hợp lệ do Yandex vận hành và tuân thủ robots.txt. Nó không phá hoại site, chỉ tốn tài nguyên mà không mang lại giá trị cho thị trường Việt Nam.
Chặn YouBot có ảnh hưởng đến xếp hạng Google không? Không. Google và Yandex là hai hệ thống hoàn toàn độc lập. Chặn YandexBot không tác động gì đến Googlebot hay thứ hạng trên Google Search.
Làm sao biết YouBot đang crawl site của mình? Vào server log (access log của Apache hoặc Nginx) và tìm chuỗi YandexBot. Nếu không có quyền truy cập log, dùng Google Search Console phần Crawl Stats, hoặc hỏi nhà cung cấp hosting.
Nếu tôi có khách hàng từ Nga thì sao? Nếu bạn thực sự có traffic hoặc khách hàng từ thị trường Nga hoặc CIS, hãy để YouBot hoạt động và theo dõi trong Yandex Webmaster. Khuyến nghị chặn ở trên chỉ áp dụng khi không có nhu cầu đó.
robots.txt đặt ở đâu và kiểm tra thế nào? File đặt tại https://yourdomain.com/robots.txt. Sau khi cập nhật, dùng công cụ robots.txt Tester trong Google Search Console hoặc truy cập thẳng URL đó trên trình duyệt để xác nhận nội dung đã đúng.
Người viết: làm web 8 năm cho agency và SMB Việt Nam. Từng để YouBot tự do trên nhiều site và mất crawl budget thật sự trước khi học cách đọc log đúng cách. Bài cập nhật tháng 6 năm 2025.