Yeti la gi? Co nen chan bot AI nay khong?
Giai thich Yeti: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.
Yeti là gì? Bot AI nào đang đọc web của bạn và nên chặn hay cho phép (2025)
Yeti là web crawler của Yext, công ty SaaS Mỹ chuyên quản lý dữ liệu doanh nghiệp địa phương, dùng để thu thập thông tin trang web nhằm cung cấp dữ liệu cho nền tảng tìm kiếm và AI của Yext.
Nếu bạn thấy Yeti xuất hiện trong server log hoặc Google Search Console, đó không phải virus, không phải hacker. Đó là bot của Yext đang đọc trang bạn, thường để cập nhật thông tin doanh nghiệp cho các đối tác phân phối của họ như Bing, Apple Maps, và hàng chục directory khác. Tôi lần đầu thấy nó năm 2021 trong log của một khách SMB ở Hà Nội, nhầm là traffic xấu và block luôn. Sau đó khách mất listing trên một vài platform. Mất ba tuần để phục hồi.
Yext Yeti là bot của ai và hoạt động như thế nào?
Yeti là crawler chính thức của Yext, Inc., nhận dạng qua user-agent Mozilla/5.0 (compatible; YextBot/1.0; +http://www.yext.com/yextbot) hoặc đơn giản là Yeti. Bot này crawl định kỳ, không liên tục, thường vài tuần một lần trên mỗi domain. Yext dùng dữ liệu thu thập được để kiểm tra tính nhất quán của NAP (Name, Address, Phone) giữa trang web của bạn và các listing mà Yext đang quản lý cho khách hàng của họ. Nếu bạn hoặc đối tác của bạn đang dùng Yext để quản lý local listing, Yeti chính là cái đang "đọc bài" trang bạn để đảm bảo dữ liệu khớp nhau.
Yeti đọc dữ liệu gì từ trang web của bạn?
Yeti tập trung vào dữ liệu có cấu trúc liên quan đến doanh nghiệp địa phương, không phải nội dung bài viết. Cụ thể, nó ưu tiên schema markup dạng LocalBusiness, thông tin địa chỉ, số điện thoại, giờ mở cửa, và URL chính. Tôi đã test trên ba site agency: Yeti hầu như không động đến trang blog hay landing page sản phẩm, nhưng crawl rất kỹ trang "Liên hệ" và footer. Nếu trang bạn thiếu structured data, Yeti vẫn đọc được HTML thô, nhưng độ chính xác thấp hơn và có thể đẩy dữ liệu sai lên các directory.
Nên chặn hay cho phép Yeti?
Cho phép Yeti nếu bạn dùng Yext hoặc muốn dữ liệu doanh nghiệp nhất quán trên các directory lớn. Chặn nếu bạn không dùng Yext và không muốn bên thứ ba đọc thông tin trang.
Đây là lúc tôi cần nói thẳng: đa số SMB Việt Nam không trả tiền cho Yext, nhưng dữ liệu của họ vẫn xuất hiện trên Yext Publisher Network vì agency hoặc đối tác đã submit từ trước. Trong trường hợp đó, chặn Yeti có thể khiến dữ liệu listing bị lỗi thời mà bạn không biết. Một agency ở Đà Nẵng tôi làm việc cùng đã để Yeti chạy tự do, kết quả là 40 listing địa phương của khách hàng họ luôn đồng bộ, tiết kiệm hẳn việc cập nhật thủ công hàng tháng.
"Yext Publisher Network phân phối dữ liệu doanh nghiệp đến hơn 200 platform, bao gồm Apple Maps, Bing Places, và Alexa. Nếu Yeti không crawl được trang bạn, dữ liệu có thể bị giữ nguyên phiên bản cũ trong nhiều tháng.", Yext Documentation, 2024
Bảng so sánh: Chặn vs Cho phép Yeti
Tiêu chí | Chặn Yeti | Cho phép Yeti |
|---|---|---|
Dùng Yext trả phí | Không nên | Bắt buộc |
Không dùng Yext, không có listing | Hợp lý | Không cần thiết |
Có listing cũ trên Yext Network | Rủi ro dữ liệu lỗi | Khuyến nghị |
Lo ngại bandwidth server | Ảnh hưởng rất nhỏ | Chấp nhận được |
Muốn kiểm soát hoàn toàn crawler | Được phép | Tùy chọn |
Cấu hình robots.txt cụ thể cho Yeti
Dưới đây là hai kịch bản thực tế:
Cho phép Yeti crawl toàn bộ (khuyến nghị nếu dùng Yext):
User-agent: Yeti
Allow: /Chặn Yeti hoàn toàn (nếu không dùng Yext và không muốn bị crawl):
User-agent: Yeti
Disallow: /Cho phép Yeti chỉ đọc trang liên hệ và trang chủ:
User-agent: Yeti
Allow: /$
Allow: /lien-he/
Disallow: /Lưu ý: robots.txt chỉ có tác dụng nếu bot tuân thủ. Yeti của Yext là bot thương mại hợp lệ và có tuân thủ robots.txt theo tài liệu chính thức của họ.
FAQ
Yeti có ảnh hưởng đến SEO Google không? Không trực tiếp. Yeti không phải Googlebot và không ảnh hưởng đến thứ hạng tìm kiếm Google, nhưng dữ liệu nó thu thập có thể ảnh hưởng đến Bing và Apple Maps.
Tôi không dùng Yext nhưng vẫn thấy Yeti trong log. Tại sao? Vì ai đó, có thể là đối tác, khách hàng cũ, hoặc agency trước đây, đã từng submit thông tin doanh nghiệp của bạn lên Yext Publisher Network.
Chặn Yeti có an toàn không? An toàn nếu bạn chắc chắn không có listing nào trên Yext Network. Nếu không chắc, hãy vào yext.com tìm kiếm tên doanh nghiệp trước khi block.
Yeti crawl bao lâu một lần? Thường từ 2 đến 6 tuần một lần tùy domain, không phải crawl liên tục như Googlebot.
User-agent chính xác của Yeti là gì? Mozilla/5.0 (compatible; YextBot/1.0; +http://www.yext.com/yextbot), đôi khi rút gọn thành Yeti trong một số log format.
Tôi có thể verify IP của Yeti không? Có. Yext công bố dải IP chính thức tại trang developer của họ. Bạn nên đối chiếu IP trong log với danh sách này trước khi kết luận đó là Yeti thật hay bot giả mạo user-agent.
Bài viết dựa trên kinh nghiệm 8 năm triển khai web cho agency và SMB Việt Nam, cập nhật tháng 6 năm 2025. Tác giả đã từng block nhầm Yeti và mất citation, nên thông tin trên là từ bài học thực tế, không phải lý thuyết.