Yeti là gì? Bot AI nào đang đọc web của bạn và nên chặn hay cho phép (2025)

Yeti — thẻ AI bot, đánh giá bởi Quoted

Yeti là web crawler của Yext, công ty SaaS Mỹ chuyên quản lý dữ liệu doanh nghiệp địa phương, dùng để thu thập thông tin trang web nhằm cung cấp dữ liệu cho nền tảng tìm kiếm và AI của Yext.

Nếu bạn thấy Yeti xuất hiện trong server log hoặc Google Search Console, đó không phải virus, không phải hacker. Đó là bot của Yext đang đọc trang bạn, thường để cập nhật thông tin doanh nghiệp cho các đối tác phân phối của họ như Bing, Apple Maps, và hàng chục directory khác. Tôi lần đầu thấy nó năm 2021 trong log của một khách SMB ở Hà Nội, nhầm là traffic xấu và block luôn. Sau đó khách mất listing trên một vài platform. Mất ba tuần để phục hồi.

Yext Yeti là bot của ai và hoạt động như thế nào?

Yeti là crawler chính thức của Yext, Inc., nhận dạng qua user-agent Mozilla/5.0 (compatible; YextBot/1.0; +http://www.yext.com/yextbot) hoặc đơn giản là Yeti. Bot này crawl định kỳ, không liên tục, thường vài tuần một lần trên mỗi domain. Yext dùng dữ liệu thu thập được để kiểm tra tính nhất quán của NAP (Name, Address, Phone) giữa trang web của bạn và các listing mà Yext đang quản lý cho khách hàng của họ. Nếu bạn hoặc đối tác của bạn đang dùng Yext để quản lý local listing, Yeti chính là cái đang "đọc bài" trang bạn để đảm bảo dữ liệu khớp nhau.

Yeti đọc dữ liệu gì từ trang web của bạn?

Yeti tập trung vào dữ liệu có cấu trúc liên quan đến doanh nghiệp địa phương, không phải nội dung bài viết. Cụ thể, nó ưu tiên schema markup dạng LocalBusiness, thông tin địa chỉ, số điện thoại, giờ mở cửa, và URL chính. Tôi đã test trên ba site agency: Yeti hầu như không động đến trang blog hay landing page sản phẩm, nhưng crawl rất kỹ trang "Liên hệ" và footer. Nếu trang bạn thiếu structured data, Yeti vẫn đọc được HTML thô, nhưng độ chính xác thấp hơn và có thể đẩy dữ liệu sai lên các directory.

Nên chặn hay cho phép Yeti?

Cho phép Yeti nếu bạn dùng Yext hoặc muốn dữ liệu doanh nghiệp nhất quán trên các directory lớn. Chặn nếu bạn không dùng Yext và không muốn bên thứ ba đọc thông tin trang.

Đây là lúc tôi cần nói thẳng: đa số SMB Việt Nam không trả tiền cho Yext, nhưng dữ liệu của họ vẫn xuất hiện trên Yext Publisher Network vì agency hoặc đối tác đã submit từ trước. Trong trường hợp đó, chặn Yeti có thể khiến dữ liệu listing bị lỗi thời mà bạn không biết. Một agency ở Đà Nẵng tôi làm việc cùng đã để Yeti chạy tự do, kết quả là 40 listing địa phương của khách hàng họ luôn đồng bộ, tiết kiệm hẳn việc cập nhật thủ công hàng tháng.

"Yext Publisher Network phân phối dữ liệu doanh nghiệp đến hơn 200 platform, bao gồm Apple Maps, Bing Places, và Alexa. Nếu Yeti không crawl được trang bạn, dữ liệu có thể bị giữ nguyên phiên bản cũ trong nhiều tháng.", Yext Documentation, 2024

Bảng so sánh: Chặn vs Cho phép Yeti

Tiêu chí	Chặn Yeti	Cho phép Yeti
Dùng Yext trả phí	Không nên	Bắt buộc
Không dùng Yext, không có listing	Hợp lý	Không cần thiết
Có listing cũ trên Yext Network	Rủi ro dữ liệu lỗi	Khuyến nghị
Lo ngại bandwidth server	Ảnh hưởng rất nhỏ	Chấp nhận được
Muốn kiểm soát hoàn toàn crawler	Được phép	Tùy chọn

Cấu hình robots.txt cụ thể cho Yeti

Dưới đây là hai kịch bản thực tế:

Cho phép Yeti crawl toàn bộ (khuyến nghị nếu dùng Yext):

User-agent: Yeti
Allow: /

Chặn Yeti hoàn toàn (nếu không dùng Yext và không muốn bị crawl):

User-agent: Yeti
Disallow: /

Cho phép Yeti chỉ đọc trang liên hệ và trang chủ:

User-agent: Yeti
Allow: /$
Allow: /lien-he/
Disallow: /

Lưu ý: robots.txt chỉ có tác dụng nếu bot tuân thủ. Yeti của Yext là bot thương mại hợp lệ và có tuân thủ robots.txt theo tài liệu chính thức của họ.

Sơ đồ robots.txt: chặn vs cho phép Yeti

FAQ

Yeti có ảnh hưởng đến SEO Google không? Không trực tiếp. Yeti không phải Googlebot và không ảnh hưởng đến thứ hạng tìm kiếm Google, nhưng dữ liệu nó thu thập có thể ảnh hưởng đến Bing và Apple Maps.

Tôi không dùng Yext nhưng vẫn thấy Yeti trong log. Tại sao? Vì ai đó, có thể là đối tác, khách hàng cũ, hoặc agency trước đây, đã từng submit thông tin doanh nghiệp của bạn lên Yext Publisher Network.

Chặn Yeti có an toàn không? An toàn nếu bạn chắc chắn không có listing nào trên Yext Network. Nếu không chắc, hãy vào yext.com tìm kiếm tên doanh nghiệp trước khi block.

Yeti crawl bao lâu một lần? Thường từ 2 đến 6 tuần một lần tùy domain, không phải crawl liên tục như Googlebot.

User-agent chính xác của Yeti là gì? Mozilla/5.0 (compatible; YextBot/1.0; +http://www.yext.com/yextbot), đôi khi rút gọn thành Yeti trong một số log format.

Tôi có thể verify IP của Yeti không? Có. Yext công bố dải IP chính thức tại trang developer của họ. Bạn nên đối chiếu IP trong log với danh sách này trước khi kết luận đó là Yeti thật hay bot giả mạo user-agent.

Bài viết dựa trên kinh nghiệm 8 năm triển khai web cho agency và SMB Việt Nam, cập nhật tháng 6 năm 2025. Tác giả đã từng block nhầm Yeti và mất citation, nên thông tin trên là từ bài học thực tế, không phải lý thuyết.

Yeti la gi? Co nen chan bot AI nay khong?