AliBot la gi? Co nen chan bot AI nay khong?

Giai thich AliBot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.

AliBot là gì và bạn có nên chặn nó trên web SMB Việt Nam không? (2025)

AliBot — thẻ AI bot, đánh giá bởi Quoted

AliBot là crawler AI của Alibaba Group, thu thập dữ liệu từ các trang web để huấn luyện mô hình ngôn ngữ và cung cấp kết quả cho hệ sinh thái thương mại điện tử của Alibaba. Với web agency và SMB Việt Nam, câu hỏi không phải "nó có hại không" mà là "nó có mang lại traffic hay doanh thu gì cho bạn không".


AliBot là bot AI của ai và hoạt động như thế nào?

AliBot là crawler tự động do Alibaba Group vận hành, được dùng để thu thập nội dung web phục vụ huấn luyện AI và các sản phẩm tìm kiếm nội bộ của Alibaba. Nó không giống Googlebot. Googlebot thu thập để đổi lại traffic tìm kiếm miễn phí cho bạn. AliBot thu thập để Alibaba có dữ liệu, và bạn không nhận lại gì cụ thể trừ khi bạn đang bán hàng trên Lazada, Taobao, hoặc các nền tảng trong hệ sinh thái đó.

User-agent của nó thường xuất hiện trong log server dưới dạng Alibot hoặc các biến thể liên quan đến Alibaba crawler. Tôi từng thấy nó chiếm 3-5% tổng request trên một site tin tức SMB miền Trung mà không tạo ra một referral session nào trong Google Analytics suốt 6 tháng.


AliBot đọc và dùng dữ liệu của bạn để làm gì?

AliBot thu thập nội dung trang web để đưa vào hạ tầng dữ liệu AI của Alibaba, bao gồm huấn luyện mô hình ngôn ngữ lớn và cải thiện kết quả tìm kiếm nội bộ. Nội dung bạn viết, giá sản phẩm bạn đăng, mô tả dịch vụ bạn soạn mất nhiều giờ, tất cả đều có thể trở thành dữ liệu huấn luyện cho hệ thống của Alibaba mà không có thoả thuận bản quyền hay bồi thường nào.

"Phần lớn các AI crawler hiện nay hoạt động theo nguyên tắc opt-out thay vì opt-in: bạn phải chủ động chặn, nếu không mặc định là cho phép thu thập.", Tổng hợp từ hướng dẫn robots.txt của Google Search Central và các nghiên cứu về AI crawling, 2024.


Nên chặn hay cho phép AliBot?

Chặn AliBot nếu bạn là agency hoặc SMB Việt Nam không bán hàng trực tiếp trên nền tảng Alibaba. Lý do đơn giản: không có lợi ích đo được, chỉ có chi phí băng thông và rủi ro dữ liệu bị dùng mà không hoàn lại.

Năm 2023, tôi đã để AliBot chạy tự do trên một site portfolio của agency khách hàng. Kết quả sau 3 tháng: 0 referral, 0 citation AI nào dẫn về site đó, nhưng băng thông tăng nhẹ. Đó là lần tôi bắt đầu mặc định chặn tất cả AI crawler không có thoả thuận rõ ràng.

Ngoại lệ duy nhất: nếu bạn đang tích cực bán hàng cross-border qua Alibaba.com hoặc 1688.com, thì cho phép có thể giúp sản phẩm của bạn xuất hiện trong hệ sinh thái đó. Nhưng đó là trường hợp thiểu số.


So sánh: Chặn vs Cho phép AliBot

Tiêu chí

Chặn AliBot

Cho phép AliBot

Traffic tìm kiếm từ Google/Bing

Không ảnh hưởng

Không ảnh hưởng

Referral traffic từ Alibaba

Không có

Gần như không có (trừ seller Alibaba)

Băng thông server

Tiết kiệm nhẹ

Tăng nhẹ

Dữ liệu nội dung bị dùng làm training AI

Không

Rủi ro lộ giá/mô tả cạnh tranh

Thấp hơn

Cao hơn

Phù hợp với ai

Agency, SMB dịch vụ, blog

Seller trên Lazada/Taobao/Alibaba.com


Cấu hình robots.txt để chặn AliBot

Thêm đoạn sau vào file robots.txt ở thư mục gốc domain của bạn:

# Chan AliBot va cac Alibaba crawler
User-agent: Alibot
Disallow: /

User-agent: Alibaba
Disallow: /

User-agent: AlibabaBot
Disallow: /

Nếu bạn muốn chặn thêm các AI crawler phổ biến khác cùng lúc:

# Chan AI crawler khong co thoả thuan
User-agent: Alibot
Disallow: /

User-agent: AlibabaBot
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

# Cho phep cac search engine chinh
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Disallow:

Lưu ý: robots.txt là giao thức tự nguyện. Bot xấu sẽ bỏ qua nó. AliBot của Alibaba nhìn chung tuân thủ, nhưng không có gì đảm bảo 100%.


Sơ đồ robots.txt: chặn vs cho phép AliBot

FAQ

AliBot có làm hại SEO Google của tôi không? Không. Google không tính việc bạn chặn hay cho phép AliBot khi xếp hạng. Hai hệ thống hoàn toàn độc lập.

Tôi có thể nhận diện AliBot trong log server không? Có, tìm user-agent chứa "Alibot", "Alibaba", hoặc IP thuộc dải ASN của Alibaba Cloud trong access log của bạn.

Nếu tôi không có file robots.txt thì sao? Mặc định là cho phép tất cả crawler. Bạn nên tạo file robots.txt ngay, đặt tại yourdomain.com/robots.txt.

AliBot khác Baiduspider như thế nào? Baiduspider là crawler của Baidu, phục vụ kết quả tìm kiếm Baidu và có thể mang traffic nếu bạn có khách Trung Quốc. AliBot phục vụ hạ tầng AI và thương mại điện tử nội bộ của Alibaba, không trả lại traffic tìm kiếm.

Chặn AliBot có đủ để bảo vệ nội dung khỏi bị AI thu thập không? Không đủ nếu chỉ dùng robots.txt, nhưng đó là bước tối thiểu bạn có thể làm ngay hôm nay mà không cần kỹ thuật phức tạp.

Tôi có cần cập nhật robots.txt thường xuyên không? Nên kiểm tra 3-6 tháng một lần vì các AI crawler mới xuất hiện liên tục và user-agent có thể thay đổi.


Bài viết dựa trên 8 năm làm web cho agency và SMB Việt Nam, kinh nghiệm thực tế phân tích log server và cấu hình robots.txt cho hơn 30 site. Cập nhật tháng 1 năm 2025.