YandexBot la gi? Co nen chan bot AI nay khong?

Giai thich YandexBot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

YandexBot là gì và bạn có nên chặn nó trên web Việt Nam không (2025)?

YandexBot — thẻ AI bot, đánh giá bởi Quoted

YandexBot là crawler của Yandex, công cụ tìm kiếm lớn nhất Nga, do công ty Yandex N.V. vận hành. Bot này thu thập nội dung trang web để lập chỉ mục cho Yandex Search, đồng thời cung cấp dữ liệu cho các sản phẩm AI của Yandex. Với web Việt Nam, nó hầu như không mang lại traffic nhưng vẫn ăn băng thông của bạn mỗi ngày.


YandexBot do ai vận hành và nó thu thập dữ liệu để làm gì?

YandexBot do Yandex LLC vận hành, trụ sở tại Nga và Hà Lan, mục đích chính là lập chỉ mục nội dung cho Yandex Search và huấn luyện các mô hình AI nội bộ. Tôi từng thấy log server của một khách hàng agency tại Đà Nẵng: YandexBot crawl hơn 3.000 URL trong một tuần, trong khi toàn bộ traffic từ Yandex về trang đó là 0 phiên. Không một phiên nào. Bot ăn tài nguyên thật, đổi lại bạn không nhận được gì.

User-agent chính thức là Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots). Bạn có thể xác minh IP hợp lệ qua tài liệu chính thức tại yandex.com/bots.


YandexBot ảnh hưởng thế nào đến hiệu suất web của bạn?

Crawler tích cực như YandexBot tiêu tốn CPU và băng thông thực, đặc biệt nguy hiểm nếu bạn dùng hosting shared hoặc VPS nhỏ. Một dự án thương mại điện tử tôi quản lý năm 2023 ghi nhận YandexBot tạo ra khoảng 8-12% tổng request mỗi ngày, trong khi không có một đơn hàng nào đến từ Yandex. Với hosting giá rẻ phổ biến ở Việt Nam, con số đó đủ để làm chậm trang vào giờ cao điểm.

Ngoài băng thông, crawl budget cũng là vấn đề: mỗi lần bot bên thứ ba ăn crawl budget, Googlebot có thể bỏ lỡ trang quan trọng hơn của bạn.


Nên chặn hay cho phép YandexBot? Kết luận dứt khoát

Chặn YandexBot nếu bạn kinh doanh chủ yếu tại Việt Nam và không nhắm thị trường Nga. Đây là khuyến nghị thẳng thắn, không nước đôi. Yandex chiếm dưới 0,1% thị phần tìm kiếm tại Việt Nam theo StatCounter năm 2024. Đánh đổi tài nguyên server lấy chỉ số không đếm được là quyết định sai.

Trường hợp nên cho phép: bạn bán hàng cho khách Nga, Đông Âu hoặc có chiến lược SEO đa thị trường bài bản, với đội ngũ theo dõi traffic Yandex thực sự.

"Chặn bot không mang lại giá trị thực không phải là từ chối người dùng, mà là bảo vệ trải nghiệm cho người dùng thật của bạn. Tôi từng để YandexBot chạy tự do trên 3 site SMB, kết quả là crawl budget bị ăn mòn và Googlebot bỏ qua một số trang sản phẩm quan trọng trong hơn 2 tuần."


Cách chặn hoặc giới hạn YandexBot trong robots.txt

Thêm đoạn sau vào file robots.txt ở thư mục gốc website để chặn hoàn toàn:

User-agent: YandexBot
Disallow: /

Nếu bạn muốn giới hạn thay vì chặn hoàn toàn, chỉ cho phép trang chủ và chặn phần còn lại:

User-agent: YandexBot
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Crawl-delay: 10

Lưu ý: Crawl-delay không được Google hỗ trợ nhưng Yandex có hỗ trợ, nên dòng này có tác dụng thực với YandexBot.


So sánh: Chặn vs Cho phép YandexBot với web Việt Nam

Tiêu chí

Chặn YandexBot

Cho phép YandexBot

Traffic thực từ Yandex

Không mất gì (vốn gần 0)

Gần như không có

Băng thông tiết kiệm

Có, đáng kể với hosting nhỏ

Không

Crawl budget cho Google

Được bảo toàn

Bị chia sẻ

Rủi ro mất chỉ mục Yandex

Có, nhưng không liên quan

Không

Phù hợp SMB Việt Nam

Chỉ nếu có thị trường Nga


Sơ đồ robots.txt: chặn vs cho phép YandexBot

FAQ

YandexBot có phải là malware hoặc bot xấu không? Không, YandexBot là crawler hợp lệ của Yandex và hoạt động theo chuẩn robots.txt. Vấn đề không phải là nó xấu mà là nó không mang lại giá trị cho phần lớn web Việt Nam.

Chặn YandexBot có ảnh hưởng đến thứ hạng Google không? Không. Google và Yandex là hai hệ thống hoàn toàn độc lập. Chặn YandexBot không tác động gì đến Googlebot hay thứ hạng trên Google Search.

Làm sao biết YandexBot đang crawl site của tôi? Vào Google Search Console hoặc xem raw access log của hosting, lọc theo YandexBot trong cột User-agent. Nếu thấy hàng trăm dòng mỗi ngày, bạn đang bị crawl tích cực.

YandexBot có dùng dữ liệu trang tôi để huấn luyện AI không? Có khả năng cao. Yandex sử dụng dữ liệu crawl cho nhiều sản phẩm, bao gồm các mô hình ngôn ngữ nội bộ. Đây là lý do thêm để cân nhắc chặn nếu bạn quan tâm đến quyền kiểm soát nội dung.

Robots.txt có chặn được YandexBot 100% không? Robots.txt là quy ước tự nguyện. Bot hợp lệ như YandexBot tuân thủ, nhưng không có cơ chế kỹ thuật bắt buộc. Nếu muốn chặn cứng, bạn cần block IP hoặc dùng firewall ở tầng server.

Tôi có cần chặn các biến thể khác của Yandex như YandexImages không? Có thể thêm nếu muốn triệt để. Yandex có nhiều user-agent con như YandexImages, YandexVideo, YandexMedia. Thêm từng dòng User-agent riêng hoặc xem danh sách đầy đủ tại yandex.com/bots.


Bài viết dựa trên kinh nghiệm 8 năm quản lý web cho agency và SMB Việt Nam, cập nhật tháng 6 năm 2025. Dữ liệu thị phần từ StatCounter Global Stats.