Tối ưu chặn Bot AI trên nền tảng Tadu Cloud: Hướng dẫn chi tiết

Tóm tắt nội dung

1 Tối Ưu Hóa Robots.txt: Lớp Phòng Thủ Đầu Tiên
2 Đập Tan Kẻ Xâm Nhập Bằng .htaccess: Giải Pháp Mạnh Mẽ Từ Tadu Cloud
3 Trang Lỗi 403 Tùy Chỉnh: Thêm Một Chút Cá Tính Từ Tadu Cloud

Nghe đọc

Internet hiện đang sôi sục với các cuộc tranh luận về việc các AI thu thập dữ liệu web để đào tạo mô hình ngôn ngữ của chúng, sau đó bán lại các sản phẩm AI mà chúng ta không hề yêu cầu. Tại Tadu Cloud, chúng tôi nhận thấy đây không chỉ là một vấn đề về quyền riêng tư mà còn là một mối đe dọa trực tiếp đến tính toàn vẹn và hiệu suất của các ứng dụng web mà bạn đang tin tưởng chạy trên hạ tầng của chúng tôi. Chặn bot AI không mong muốn không chỉ là một nhiệm vụ kỹ thuật, mà còn là một cam kết của Tadu Cloud nhằm bảo vệ tài nguyên và dữ liệu quý giá của bạn khỏi sự lạm dụng. Chúng tôi hiểu rằng mỗi byte dữ liệu, mỗi chu kỳ CPU trên máy chủ của bạn đều có giá trị, và việc bị lạm dụng bởi các crawler không thân thiện là điều không thể chấp nhận được. Bài viết này sẽ đi sâu vào cách Tadu Cloud tiếp cận vấn đề này, cung cấp cho bạn những công cụ và kiến thức để tự mình kiểm soát, đồng thời giới thiệu về giải pháp bảo mật tự động của chúng tôi.

Với tư cách là một nhà cung cấp dịch vụ đám mây, Tadu Cloud luôn đặt trải nghiệm và an ninh của người dùng lên hàng đầu. Chúng tôi nhận thấy rằng trong bối cảnh hiện nay, việc kiểm soát ai có thể truy cập và sử dụng nội dung trên website của bạn là vô cùng quan trọng. Các bot thu thập dữ liệu, đặc biệt là các bot AI được thiết kế để “cạo” (scrape) nội dung một cách trắng trợn, không chỉ tiêu tốn băng thông và tài nguyên máy chủ mà còn có thể làm giảm giá trị độc quyền của nội dung bạn đã dày công tạo ra. Đó là lý do tại sao chúng tôi khuyến khích các nhà phát triển và quản trị viên web tận dụng tối đa các công cụ như robots.txt và .htaccess, và xa hơn nữa là các giải pháp bảo mật nâng cao mà Tadu Cloud cung cấp.

Khi bạn triển khai các ứng dụng web của mình trên Tadu Cloud, dù là trên các gói shared hosting Apache-based hay các máy chủ ảo chuyên dụng, bạn đều có quyền truy cập đầy đủ và linh hoạt vào cấu hình hệ thống. Điều này bao gồm khả năng tùy chỉnh file .htaccess để bổ trợ cho file robots.txt của bạn. Chúng tôi đã thấy nhiều trường hợp các nhà phát triển muốn có một lớp phòng thủ mạnh mẽ hơn ngoài những gì robots.txt có thể cung cấp, bởi vì như chúng ta đều biết, robots.txt chỉ là một hướng dẫn lịch sự, không phải là một rào cản kỹ thuật bắt buộc.

Lấy cảm hứng từ những phương pháp hiệu quả đã được cộng đồng chia sẻ, chúng tôi tại Tadu Cloud đã tổng hợp và chuẩn hóa quy trình chặn bot AI. Mục tiêu của chúng tôi là giúp bạn dễ dàng triển khai các biện pháp bảo vệ này, ngay cả khi bạn đang sử dụng các công cụ tạo trang tĩnh như 11ty hay các CMS phổ biến khác. Ý tưởng ban đầu chỉ là có một file robots.txt cơ bản, nhưng để thực sự hiệu quả, chúng ta cần một danh sách các bot không mong muốn luôn được cập nhật và một cơ chế chặn cấp độ máy chủ mạnh mẽ.

Trong quá trình nghiên cứu và phát triển, chúng tôi đã tham khảo danh sách các ‘robot’ thù địch được duy trì bởi cộng đồng mã nguồn mở. Việc tự động hóa quá trình lấy danh sách này và tích hợp nó vào cấu hình website là một bước tiến quan trọng. Ban đầu, có thể việc tích hợp này đòi hỏi một chút ‘đập đầu vào tường’ để hiểu cách các công cụ như eleventy-fetch hoạt động để tạo ra dữ liệu động cho các file cấu hình. Tuy nhiên, qua quá trình thử nghiệm và học hỏi, chúng tôi đã phát hiện ra các phương pháp tối ưu giúp việc này trở nên dễ dàng và tự động hơn, biến danh sách ‘đen’ tĩnh thành một hệ thống phòng thủ sống động, liên tục được cập nhật.

Tối Ưu Hóa Robots.txt: Lớp Phòng Thủ Đầu Tiên

File robots.txt là điểm dừng chân đầu tiên cho hầu hết các web crawler. Nó là một chỉ dẫn lịch sự cho các bot “ngoan ngoãn” biết khu vực nào của trang web không nên được truy cập. Tại Tadu Cloud, chúng tôi khuyên bạn nên có một file robots.txt được cấu hình cẩn thận để định hướng các bot tìm kiếm chính thống và loại trừ các bot mà bạn không muốn chúng tiếp cận nội dung của mình. Dưới đây là một ví dụ về cách Tadu Cloud khuyến nghị bạn cấu hình file robots.txt của mình:

User-agent: ia_archiver
User-agent: MojeekBot
User-agent: search.marginalia.nu
Disallow:

User-agent: GPTBot
User-agent: CCBot
User-agent: ClaudeBot
User-agent: Google-Extended
User-agent: OAI-SearchBot
User-agent: PerplexityBot
Disallow: /

Sitemap: {{ meta.url }}/sitemap.xml

Trong ví dụ trên, chúng tôi đã thêm các chỉ dẫn Disallow: / cho một số User-agent cụ thể của các bot AI mà chúng tôi muốn ngăn chặn truy cập toàn bộ trang web. Đồng thời, chúng tôi vẫn cho phép một số scraper “thân thiện” hoặc các bot tìm kiếm hữu ích được truy cập, sau khi cân nhắc kỹ lưỡng về lợi ích mà chúng mang lại. Điều này thể hiện sự cân bằng giữa việc bảo vệ nội dung và duy trì khả năng hiển thị trên các công cụ tìm kiếm hoặc các dịch vụ hợp pháp. Quan trọng là, robots.txt cần được đặt ở thư mục gốc của trang web (ví dụ: yourdomain.com/robots.txt).

Đập Tan Kẻ Xâm Nhập Bằng .htaccess: Giải Pháp Mạnh Mẽ Từ Tadu Cloud

Mặc dù robots.txt hữu ích cho các bot tuân thủ quy tắc, nhưng các bot “hung hăng” hoặc “thù địch” sẽ bỏ qua nó. Đây là lúc file .htaccess trên máy chủ Apache của Tadu Cloud phát huy tác dụng như một “tường lửa” cấp độ ứng dụng. File này cho phép bạn định nghĩa các quy tắc viết lại URL và điều khiển truy cập dựa trên các điều kiện cụ thể, bao gồm cả User-agent của người dùng hoặc bot truy cập. Đây là một lớp bảo vệ mạnh mẽ hơn nhiều, thực thi lệnh ở cấp độ máy chủ.

Tadu Cloud cung cấp môi trường cho phép bạn tạo một file .htaccess động. Điều này có nghĩa là bạn có thể tự động sinh ra file này với danh sách các bot cần chặn, được cập nhật từ một nguồn dữ liệu đáng tin cậy. Dưới đây là cấu hình .htaccess mà Tadu Cloud khuyến nghị để chặn các bot AI dựa trên User-agent của chúng:

<IfModule mod_rewrite.c>
  RewriteEngine on
  RewriteBase /

  # Block “AI” bots
  RewriteCond %{HTTP_USER_AGENT} (AddSearchBot|AI2Bot|AI2Bot-DeepResearchEval|Ai2Bot-Dolma|aiHitBot|amazon-kendra|Amazonbot|AmazonBuyForMe|Andibot|Anomura|anthropic-ai|Applebot|Applebot-Extended|atlassian-bot|Awario|bedrockbot|bigsur.ai|Bravebot|Brightbot 1.0|BuddyBot|Bytespider|CCBot|Channel3Bot|ChatGLM-Spider|ChatGPT Agent|ChatGPT-User|Claude-SearchBot|Claude-User|Claude-Web|ClaudeBot|Cloudflare-AutoRAG|CloudVertexBot|cohere-ai|cohere-training-data-crawler|Cotoyogi|Crawl4AI|Crawlspace|Datenbank Crawler|DeepSeekBot|Devin|Diffbot|DuckAssistBot|Echobot Bot|EchoboxBot|FacebookBot|facebookexternalhit|Factset_spyderbot|FirecrawlAgent|FriendlyCrawler|Gemini-Deep-Research|Google-CloudVertexBot|Google-Extended|Google-Firebase|Google-NotebookLM|GoogleAgent-Mariner|GoogleOther|GoogleOther-Image|GoogleOther-Video|GPTBot|iAskBot|iaskspider|iaskspider/2.0|IbouBot|ICC-Crawler|ImagesiftBot|imageSpider|img2dataset|ISSCyberRiskCrawler|Kangaroo Bot|KlaviyoAIBot|KunatoCrawler|laion-huggingface-processor|LAIONDownloader|LCC|LinerBot|Linguee Bot|LinkupBot|Manus-User|meta-externalagent|Meta-ExternalAgent|meta-externalfetcher|Meta-ExternalFetcher|meta-webindexer|MistralAI-User|MistralAI-User/1.0|MyCentralAIScraperBot|netEstate Imprint Crawler|NotebookLM|NovaAct|OAI-SearchBot|omgili|omgilibot|OpenAI|Operator|PanguBot|Panscient|panscient.com|Perplexity-User|PerplexityBot|PetalBot|PhindBot|Poggio-Citations|Poseidon Research Crawler|QualifiedBot|QuillBot|quillbot.com|SBIntuitionsBot|Scrapy|SemrushBot-OCOB|SemrushBot-SWA|ShapBot|Sidetrade indexer bot|Spider|TavilyBot|TerraCotta|Thinkbot|TikTokSpider|Timpibot|TwinAgent|VelenPublicWebCrawler|WARDBot|Webzio-Extended|webzio-extended|wpbot|WRTNBot|YaK|YandexAdditional|YandexAdditionalBot|YouBot|ZanistaBot) [NC]
  RewriteRule ^ – [F]
</IfModule>

Hãy phân tích đoạn mã trên:

<IfModule mod_rewrite.c>: Đảm bảo rằng các quy tắc này chỉ được thực thi nếu module mod_rewrite của Apache được kích hoạt trên máy chủ Tadu Cloud. Đây là một điều kiện tiên quyết để các quy tắc viết lại hoạt động.
RewriteEngine on: Bật công cụ viết lại.
RewriteBase /: Đặt cơ sở viết lại về thư mục gốc của website.
RewriteCond %{HTTP_USER_AGENT} ( ... ) [NC]: Đây là điều kiện kiểm tra User-agent của client (trình duyệt hoặc bot). Phần trong dấu ngoặc đơn ( ... ) là một biểu thức chính quy (regex) chứa danh sách dài các User-agent của các bot AI và scraper thù địch mà chúng tôi muốn chặn. Cờ [NC] (No Case) đảm bảo rằng việc so khớp không phân biệt chữ hoa, chữ thường, tăng tính linh hoạt.
RewriteRule ^ – [F]: Nếu điều kiện RewriteCond trên khớp, quy tắc này sẽ được áp dụng. Ký tự ^ khớp với bất kỳ URI nào. Cờ [F] (Forbidden) buộc máy chủ Apache trả về mã lỗi 403 Forbidden, chặn hoàn toàn quyền truy cập của bot đó vào trang web của bạn.

File .htaccess này sẽ được đặt ở thư mục gốc của trang web của bạn (yourdomain.com/.htaccess). Nó là một file ẩn ở cấp độ máy chủ, vì vậy bạn sẽ không thể xem nó trực tiếp qua trình duyệt. Các quy tắc này được thực thi trước khi nội dung trang được phục vụ, tạo ra một rào cản hiệu quả chống lại các bot không mong muốn. Điều này giúp giảm tải cho máy chủ của bạn và bảo vệ nội dung khỏi bị thu thập trái phép.

Trang Lỗi 403 Tùy Chỉnh: Thêm Một Chút Cá Tính Từ Tadu Cloud

Để hoàn thiện trải nghiệm chặn bot, Tadu Cloud khuyến khích bạn tạo một trang lỗi 403 tùy chỉnh. Thay vì hiển thị trang lỗi mặc định “khô khan” của máy chủ, một trang 403 tùy chỉnh không chỉ cung cấp thông tin rõ ràng hơn cho người dùng (hoặc bot), mà còn có thể mang lại một chút cá tính cho thương hiệu của bạn. Trong môi trường Apache, bạn thường cần đảm bảo sử dụng phần mở rộng .shtml cho các trang lỗi để tận dụng các tính năng server-side includes, mặc dù điều này có thể thay đổi tùy thuộc vào cấu hình cụ thể.

---
title: Truy Cập Bị Chặn
layout: page
permalink: /403.shtml
eleventyExcludeFromCollections: true
excludeFromSitemap: true
noindex: true
---

<h2>Bite my shiny metal ass!</h2>

<img src="/assets/images/template/bender-bite-my-shiny-metal.png" alt="Bender từ Futurama nói với các bot AI scraper cút đi">

<p>Xin lỗi các bot, các bạn không được chào đón ở đây!</p>

Trang này sẽ được loại trừ khỏi các bộ sưu tập và sitemap, và được đánh dấu là noindex để đảm bảo rằng nó không được lập chỉ mục bởi các công cụ tìm kiếm. Khi một bot bị chặn bởi quy tắc .htaccess, chúng sẽ nhận được trang lỗi 403 này, thay vì tiếp tục truy cập vào các tài nguyên khác. Điều này không chỉ là một giải pháp kỹ thuật mà còn là một thông điệp rõ ràng.

Tại Tadu Cloud, chúng tôi luôn nỗ lực để cung cấp cho bạn những công cụ mạnh mẽ và linh hoạt nhất để quản lý và bảo vệ website của mình. Những phương pháp chặn bot bằng robots.txt và .htaccess là những bước đi cơ bản nhưng cực kỳ hiệu quả trong việc duy trì quyền kiểm soát dữ liệu và tài nguyên của bạn. Chúng tôi khuyến khích các nhà phát triển và quản trị viên web tận dụng tối đa những khả năng này để xây dựng một môi trường web an toàn và hiệu quả hơn.

Chúng tôi hiểu rằng việc cấu hình thủ công các file này, đặc biệt là việc duy trì danh sách bot thù địch luôn được cập nhật, có thể tốn thời gian và đòi hỏi chuyên môn kỹ thuật. Đó là lý do Tadu Cloud không ngừng cải tiến các dịch vụ bảo mật của mình. Sử dụng hệ thống Tadu thì tường lửa Tadu tự động chặn mà bạn không cần thiết phải làm gì cả.

Soạn bài: Yên AI

Việt Nam Vận Hành Siêu Máy Tính Nvidia DGX B200 Đầu Tiên

LINUX HOSTING

RESELLER HOSTING

CLOUD SERVER

CLOUD SERVER PRO

CLOUD BACKUP

CHỨNG THỰC CHỮ KÝ SỐ ONE-CA

CHỨNG THỰC SSL CHO WEBSITE

HÓA ĐƠN ĐIỆN TỬ

CHỮ KÝ SỐ

EMAIL DOANH NGHIỆP

Tadu ra mắt sản phẩm mới Cloud Server Pro

Tadu – CHƯƠNG TRÌNH KHUYẾN MÃI THÁNG 10/2020

Tin công nghệ

Tối ưu chặn Bot AI trên nền tảng Tadu Cloud: Hướng dẫn chi tiết

Tối Ưu Hóa Robots.txt: Lớp Phòng Thủ Đầu Tiên

Đập Tan Kẻ Xâm Nhập Bằng .htaccess: Giải Pháp Mạnh Mẽ Từ Tadu Cloud

Trang Lỗi 403 Tùy Chỉnh: Thêm Một Chút Cá Tính Từ Tadu Cloud

Yên AI

Việt Nam Vận Hành Siêu Máy Tính Nvidia DGX B200 Đầu Tiên

Tối ưu chặn Bot AI trên nền tảng Tadu Cloud: Hướng dẫn chi tiết

Lỗ hổng SQL Injection nguy hiểm ảnh hưởng hơn 40.000 trang WordPress

W3 Total Cache Lộ Lỗ Hổng Bảo Mật Nghiêm Trọng, 3 Bản Vá Liên Tiếp Đều Thất Bại

THÔNG BÁO NGỪNG KINH DOANH DỊCH VỤ TÊN MIỀN

Chính sách giải quyết tranh chấp tên miền quốc tế của ICANN

THÔNG BÁO NGƯNG KINH DOANH DỊCH VỤ TÊN MIỀN

Định Nghĩa Tên Miền Quốc Tế Và Vòng Đời Của Tên Miền Quốc Tế

Việt Nam Vận Hành Siêu Máy Tính Nvidia DGX B200 Đầu Tiên

Tối ưu chặn Bot AI trên nền tảng Tadu Cloud: Hướng dẫn chi tiết

Lỗ hổng SQL Injection nguy hiểm ảnh hưởng hơn 40.000 trang WordPress

W3 Total Cache Lộ Lỗ Hổng Bảo Mật Nghiêm Trọng, 3 Bản Vá Liên Tiếp Đều Thất Bại

THÔNG BÁO NGỪNG KINH DOANH DỊCH VỤ TÊN MIỀN

Số 5 Đồng Nai, P.2, Q. Tân Bình, TP. HCM

028.7300.2069

lienhe@tadu.vn

CÔNG TY CP CÔNG NGHỆ TADU

VỀ TADU.CLOUD

dịch vụ

hướng dẫn

LIÊN HỆ TƯ VẤN