omgilibot la gi? Co nen chan bot AI nay khong?

Giai thich omgilibot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

omgilibot là gì và bạn có nên chặn nó không? (2025)

omgilibot — thẻ AI bot, đánh giá bởi Quoted

omgilibot là bot thu thập dữ liệu của nền tảng AI tên omgili, chuyên quét nội dung web để xây dựng bộ dữ liệu hội thoại và phân tích ngôn ngữ. Nó không phải Google, không giúp bạn lên rank, và không mang traffic về. Mọi thứ nó lấy đều phục vụ mục đích của omgili, không phải của bạn.

Tại sao bạn cần biết omgilibot tồn tại?

omgilibot xuất hiện trong server log của hầu hết site có nội dung tiếng Anh, và ngày càng nhiều site Việt Nam cũng thấy nó. Tôi lần đầu để ý con bot này năm 2022 khi audit log cho một khách hàng thương mại điện tử ở TP.HCM. Nó đã quét hơn 800 URL trong một ngày mà không để lại bất kỳ giá trị nào ngược lại. Không citation. Không traffic. Chỉ tốn băng thông.

omgilibot do ai vận hành và thu dữ liệu để làm gì?

omgilibot do công ty omgili (sau đổi tên thành Webz.io) vận hành, chuyên bán dữ liệu web dạng thô cho khách hàng doanh nghiệp và nghiên cứu AI. Bot này quét forum, blog, tin tức, và trang sản phẩm để xây corpus ngôn ngữ tự nhiên, đặc biệt là nội dung dạng hỏi đáp và thảo luận. Nói thẳng: họ lấy nội dung bạn viết, đóng gói, rồi bán cho người khác. Bạn không được hỏi. Bạn không được trả tiền.

"Webz.io phục vụ hơn 1.000 khách hàng doanh nghiệp toàn cầu, bao gồm các công ty tình báo thương mại và nhà cung cấp dữ liệu huấn luyện AI.", Webz.io, trang giới thiệu doanh nghiệp, 2024.

Nên chặn hay cho phép omgilibot?

Chặn. Đây là khuyến nghị dứt khoát, không nước đôi.

omgilibot không đóng góp gì cho SEO của bạn. Googlebot mới là thứ quyết định rank. omgilibot chỉ tiêu tài nguyên server, đặc biệt nguy hiểm nếu bạn đang dùng shared hosting hoặc VPS nhỏ dưới 2GB RAM. Tôi từng để một con bot tương tự chạy thoải mái trên site tin tức của một agency Đà Nẵng, kết quả là hosting trả về lỗi 503 vào giờ cao điểm vì bot và người dùng thật cùng tranh băng thông. Mất 3 ngày mới recover traffic.

Nếu bạn đang xây thương hiệu nội dung dài hạn, để dữ liệu của mình vào tay công ty bán data mà không kiểm soát được đầu ra là rủi ro không đáng.

So sánh: chặn omgilibot vs cho phép

Tiêu chí

Chặn omgilibot

Cho phép omgilibot

Ảnh hưởng SEO Google

Không có

Không có

Băng thông server

Tiết kiệm

Tốn thêm, bot không lịch sự

Nội dung bị dùng lại

Không

Có, bạn không kiểm soát được

Citation ngược lại

Không bao giờ

Cũng không bao giờ

Rủi ro với shared hosting

Giảm

Tăng, đặc biệt lúc peak traffic

Cấu hình robots.txt cụ thể để chặn omgilibot

Thêm đoạn dưới đây vào file robots.txt ở thư mục gốc domain của bạn:

User-agent: omgilibot
Disallow: /

User-agent: omgili
Disallow: /

Dùng cả hai dòng vì bot này đôi khi gửi request với user-agent omgili thay vì omgilibot. Sau khi thêm, vào Google Search Console dùng công cụ "Kiểm tra robots.txt" để xác nhận cú pháp đúng trước khi deploy.

Nếu muốn chặn cứng hơn ở tầng server (Nginx), thêm:

if ($http_user_agent ~* "omgilibot|omgili") {
    return 403;
}

Chặn ở tầng server hiệu quả hơn vì không cần bot phải đọc robots.txt trước.


Sơ đồ robots.txt: chặn vs cho phép omgilibot

FAQ

omgilibot có hại cho SEO không? Không trực tiếp, nhưng nếu nó làm server chậm thì Time to First Byte tăng, và Google sẽ crawl ít trang hơn trong cùng thời gian.

omgilibot có tôn trọng robots.txt không? Theo chính sách công bố của Webz.io thì có, nhưng tôi đã thấy trường hợp bot vẫn gõ vài URL sau khi bị disallow. Chặn ở cả tầng server cho chắc.

Tôi có bị phạt vì chặn omgilibot không? Không. Chặn bot không phải Googlebot không ảnh hưởng gì đến index hay rank của bạn.

omgilibot và Googlebot có giống nhau không? Hoàn toàn khác. Googlebot giúp bạn xuất hiện trên kết quả tìm kiếm. omgilibot thu thập dữ liệu cho sản phẩm thương mại của Webz.io.

Tôi tìm omgilibot ở đâu trong log server? Lọc file access log với lệnh grep "omgilibot" /var/log/nginx/access.log. Nếu thấy hàng trăm dòng trong một ngày, bạn đang bị quét nặng.

Ngoài omgilibot còn bot nào tương tự cần chặn? CCBot (Common Crawl), GPTBot (OpenAI), và ClaudeBot (Anthropic) hoạt động theo cơ chế tương tự. Tùy chiến lược nội dung, bạn có thể xem xét chặn luôn cả nhóm này.


Bài viết dựa trên kinh nghiệm 8 năm làm web cho agency và SMB Việt Nam, bao gồm việc từng để bot lạ chạy tự do và trả giá bằng downtime thật. Cập nhật tháng 6 năm 2025.