PleiasBot la gi? Co nen chan bot AI nay khong?
Giai thich PleiasBot: bot AI nay la gi, co nen chan hay cho phep trong robots.txt.
PleiasBot là gì và bạn có nên chặn nó trên website năm 2025?
PleiasBot là crawler của Pleias, một công ty AI Pháp chuyên xây dựng mô hình ngôn ngữ mã nguồn mở từ dữ liệu web công khai. Bot này thu thập nội dung trang web để huấn luyện AI, không phục vụ xếp hạng SEO hay lập chỉ mục tìm kiếm thông thường.
Tại sao bạn cần biết về PleiasBot ngay bây giờ?
Pleias công bố mô hình đầu tiên vào cuối 2023 và đang mở rộng thu thập dữ liệu mạnh vào 2024 và 2025. Nếu bạn chưa cấu hình robots.txt, nội dung bạn tốn tiền thuê người viết đang được dùng miễn phí để huấn luyện một mô hình AI thương mại. Đó không phải chuyện nhỏ, đặc biệt với agency có portfolio khách hàng hoặc SMB đang xây thương hiệu nội dung.
PleiasBot do ai vận hành và mục đích thực sự là gì?
PleiasBot do công ty Pleias (trụ sở Paris, Pháp) vận hành, mục đích là thu thập văn bản web để huấn luyện các mô hình ngôn ngữ mã nguồn mở. Họ tự định vị là "AI minh bạch", công bố danh sách bot, cung cấp trang opt-out. Nhưng "mã nguồn mở" không có nghĩa là phi thương mại: Pleias có thể kiếm tiền từ dịch vụ dựa trên các mô hình đó. Tôi đã thấy ít nhất hai khách hàng SMB của mình phát hiện ra nội dung hướng dẫn kỹ thuật họ viết kỹ lưỡng suất hiện gần như nguyên văn trong output của một tool AI mà không có attribution nào.
PleiasBot đọc và dùng dữ liệu như thế nào?
PleiasBot thu thập HTML công khai, ưu tiên văn bản chất lượng cao như bài blog, trang dịch vụ, tài liệu kỹ thuật. Dữ liệu sau đó được xử lý vào tập huấn luyện Common Corpus hoặc các tập tương tự. Nó không đọc trang yêu cầu đăng nhập, không bypass tường phí. Nhưng nếu bài viết của bạn là công khai và robots.txt không chặn, nó sẽ đọc.
"Common Corpus của Pleias là một trong những tập dữ liệu huấn luyện AI mã nguồn mở lớn nhất châu Âu, với hơn 2 nghìn tỷ token từ web công khai tính đến đầu 2025.", Pleias, tài liệu kỹ thuật chính thức
Nên chặn hay cho phép: khuyến nghị dứt khoát
Nên chặn PleiasBot nếu bạn là agency hoặc SMB đang xây tài sản nội dung. Cho phép chỉ có lý nếu bạn chủ động ủng hộ AI mã nguồn mở hoặc muốn dữ liệu của mình trong tập huấn luyện công khai. Pleias không trả tiền cho nội dung, không tặng thứ hạng SEO, không mang traffic về. Đây là giao dịch một chiều. Tôi chặn nó cho toàn bộ khách hàng agency từ quý 2/2024 và chưa thấy hệ quả tiêu cực nào.
Tiêu chí | Chặn PleiasBot | Cho phép PleiasBot |
|---|---|---|
SEO / traffic | Không ảnh hưởng | Không lợi ích |
Bảo vệ nội dung gốc | Có | Không |
Băng thông server | Tiết kiệm | Tốn thêm |
Citation / attribution | Không liên quan | Không được đảm bảo |
Phù hợp nếu | Agency, SMB xây thương hiệu | Blog cá nhân muốn đóng góp AI mở |
Cấu hình robots.txt cụ thể cho PleiasBot
Dán đoạn này vào cuối file robots.txt hiện tại của bạn:
```robots.txt User-agent: PleiasBot Disallow: /
Nếu bạn muốn chặn đồng thời một nhóm bot AI thu thập dữ liệu huấn luyện, dùng khối mở rộng sau:
```robots.txt
User-agent: PleiasBot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /Lưu lại, upload lên thư mục gốc (ví dụ: https://yourdomain.com/robots.txt), kiểm tra bằng Google Search Console hoặc truy cập thẳng URL đó trên trình duyệt.
FAQ
PleiasBot có ảnh hưởng đến SEO nếu tôi chặn không? Không. PleiasBot không phải Googlebot hay Bingbot. Chặn nó không tác động gì đến xếp hạng tìm kiếm.
Tôi không sửa được robots.txt thì làm sao? Liên hệ nhà cung cấp hosting hoặc người quản trị web. Với WordPress, plugin Yoast SEO hoặc Rank Math đều có giao diện chỉnh robots.txt không cần đụng code.
PleiasBot có bypass robots.txt không? Pleias tuyên bố tuân thủ robots.txt. Tôi chưa có bằng chứng họ vi phạm. Nhưng "tuyên bố" và "luôn luôn thực thi" là hai chuyện khác nhau, nên kiểm tra log server định kỳ vẫn là việc đáng làm.
Tôi có thể opt-out qua trang web của Pleias không? Có, Pleias cung cấp form opt-out tại trang chủ. Nhưng cấu hình robots.txt vẫn nên làm song song vì opt-out web form không phải tiêu chuẩn kỹ thuật được máy chủ thực thi tự động.
Nếu tôi đã bị thu thập rồi thì sao? Dữ liệu đã vào tập huấn luyện thì không rút lại được trong thực tế. Việc cần làm bây giờ là chặn ngay để hạn chế thêm, và đánh dấu ngày cập nhật robots.txt để theo dõi về sau.
PleiasBot khác CCBot hay GPTBot ở điểm nào? Cả ba đều thu thập dữ liệu để huấn luyện AI, không phục vụ tìm kiếm. Điểm khác: Pleias là tổ chức châu Âu, tập trung vào mô hình mã nguồn mở đa ngôn ngữ. CCBot là của Common Crawl, phi lợi nhuận Mỹ. GPTBot là của OpenAI, thương mại rõ ràng.
Bài viết dựa trên kinh nghiệm 8 năm làm web cho agency và SMB Việt Nam, cập nhật tháng 5/2025. Tôi từng để CCBot chạy tự do hai năm trước khi nhận ra mình đang cho đi tài sản nội dung mà không nhận lại gì.