Robots.txt là gì? – Hướng dẫn cách tạo và sử dụng robots.txt

0

 Robots.txt là gì ?


   Web Robot (còn được gọi là Web Wanderer, Crawler hay Spider nhưng trong bài viết này mình xin tạm dịch là Bọ Tìm Kiếm) là một chương trình được lập trình tự động thực hiện một công việc nào đó khi truy cập vào website của bạn. VD: bọ tìm kiếm của Google, Yahoo!, Bing được lập trình để index (lập chỉ mục) nội dung trên website của bạn, spammer có thể dùng bọ để tìm kiếm và lưu trữ danh sách địa chỉ email hay số điện thoại có trên website của bạn…


   Robots.txt thực chất chỉ là một tập tin văn bản thuần có nội dung được viết theo một cú pháp định sẵn, quy định (cho phép) bọ tìm kiếm được phép hoặc giới hạn hoạt động một số mục trên website của bạn.


Có bao nhiêu loại Bọ Tìm Kiếm ?


   Có rất nhiều loại Bọ Tìm Kiếm trên internet với nhiều chức năng khác nhau… Nổi tiếng có thể kể đến Như Googlebot, Yahoo! Slurp, Bingbot… Chỉ tính riêng Google Bot đã có hàng tá các bot con khác nhau cho nhiều mục đích khác nhau như:

Googlebot/2.1 – Tìm và lập chỉ mục website.

Google Web Light – Tìm và lập chỉ mục nội dung cho SmartTV.

Googlebot-Image – Tìm và lập chỉ mục hình ảnh.

Googlebot-Video – Tìm và lập chỉ mục video.

AdsBot – Kiểm tra chất lượng quảng cáo hiển thị trên desktop.

AdsBot-Google-Mobile – Kiểm tra chất lượng quảng cáo hiển thị trên điện thoại di động.


Ngoài lập chỉ mục website Bọ Tìm Kiếm còn có chức năng gì ?


   Thật ra mình dịch BotBọ Tìm Kiếm là vì mục đích chính của Bọ Tìm Kiếm là tìm và lập chỉ mục cho website nhưng bên cạnh đó Bọ Tìm Kiếm còn được dùng vào nhiều mục đích khác nhau như:

 

– Thu thập dữ liệu như email, số điện thoại… và nhiều thông tin nhạy cảm trên internet.

– Quét lỗi bảo mật cho website.

– Theo dõi và giám sát đổ ổn định của website.

– Sao chép và đánh cắp dữ liệu loại này thường được gọi là Bad Bot và xếp vào nhóm malware.

 

   Bạn có thểm xem danh sách chi tiết các Bọ Tìm Kiếm phổ biến và chức năng của nó ở đây.


Làm sao và khi nào để Bọ Tìm Kiếm mò vào web bạn ?


   Có nhiều lý do nhưng thường là bạn cho phép và mời vào thì Bọ Tìm Kiếm mới mò vào web bạn… dưới đây là vài ví dụ:


Bạn đang ký dịch vụ theo dõi UpTime của web bạn thông qua Pingdom dot COM sau khi đăng ký làm thành viên và add website của bạn cho Pingdom … chừng 15 phút sau bạn sẽ thấy tùy vào bạn cấu hình sẽ có thường trực khoảng 3-5 con bot của Pingdom mò vào web bạn thường xuyên để kiểm tra độ UpTime …


Bạn đăng ký dịch vụ quảng cáo Google AdSense … sau khi chèn mã quảng cáo vào một thời gian bạn sẽ thấy AdsBot và AdsBot-Google-Mobile mò vào kiểm tra.


Website của bạn có nhiều thành viên chia sẻ địa chỉ email hay số điện thoại với nhau… và có một ai đó dùng phần mềm hay dịch vụ thứ 3 dùng Bọ Tìm Kiếm mò vào và quét toàn bộ website của bạn để thu thập địa chỉ email và số điện thoại để gửi spam hay quảng cáo sau này…


   Giải thích chung chung vậy đủ rồi bây giờ mình quay lại chủ đề chính của bài viết


Cách tạo tập tin robots.txt như thế nào ?


   Vì đơn giản chỉ là một tập tin văn bản thuần nên bạn có thể dùng bất kỳ một ứng dụng soạn thảo văn bản nào như Notepad, WordPad hay thậm chí Microsoft Word miễn là khi lưu lại bạn lưu ý chọn định dạng mở rộng là .txt (Text file) và phải đặt đúng cấu trúc tên tập tin là robots.txt (đúng và đủ) không phải là Robots.txt hay robot.TXT


Dưới đây là một vài nguồn tham khảo thêm về tập tin robots.txt cho bạn:

   – HTML 4.01 specification, Appendix B.4.1

   – Wikipedia – Robots Exclusion Standard

   – About /robots.txt


Đặt tập tin robots.txt ở đâu


   Ngay thư mục gốc (root) của website của bạn thường ngang hàng với các tập tin như index.php, index.html hoặc default.aspx


VD: https://dohuytuong.com/robots.txt

        https://dohuytuong.net/robots.txt



Cấu trúc nội dung tập tin robots.txt


Sau đây là một ví dụ đơn giản về nội dung tập tin robots.txt 

User-agent: *

Allow: /my-blog/

Disallow: /cgi-bin/(code-box)

   Trong đó User-agent: là đại diện của một bọ tìm kiếm của một search engine, dấu * đại diện cho tất các các bọ tìm kiếm của tất cả các search engine… nếu bạn muốn chỉ định cụ thế với một bọ tìm kiếm cụ thể có thể dùng cú pháp như sau (mình dùng Google bot làm ví dụ).


Danh sách chi tiết các crawler bot tìm tại đây 

User-agent: Googlebot

Allow: /my-blog/

Disallow: /cgi-bin/(code-box)

   Trong đó hai dòng lệnh Allow:Disallow: quy định cho phép hoặc không cho phép Google bot đánh chỉ mục một thư mục nào đó …


Một số lưu ý với cú pháp của robots.txt


Phân biệt chữ hoa chữ thường. VD: /cgi-bin/ khác với /Cgi-Bin/

Không được viết dư, thiếu khoản trắng.

Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.

Mỗi một câu lệnh nên viết trên một dòng duy nhất.

Không thay đổi trật tự cú pháp dòng lệnh User-agent: (luôn nằm trên) và Disallow: (luôn nằm dưới)



Sau đây là một số ví dụ cụ thể cách sử dụng tập tin robots.txt


Chặn tất cả các bot và nội dung

User-agent: *

Disallow: /(code-box)

   Facebook là một trong những site nổi tiếng gần như chặn tất các các bot và nội dung… bạn có thể tìm hiểu tập tin robots.txt của Facebook để học hỏi thêm…


Cho phép tất các các bot lập chỉ mục tất cả các nội dung

User-agent: *

Allow: /(code-box)

Chặn một thư mục cụ thể và mọi nội dung nằm trong nó

User-agent: *

Disallow: /private/(code-box)

Chặn một tập tin cụ thể và mọi nội dung nằm trong nó

User-agent: *

Disallow: /private_file.html(code-box)

Chặn và loại bỏ một hình cụ thể khỏi Google Images

# I don't want to index my honey photo :>

User-agent: Googlebot-Image

Disallow: /private/my-love/vu-bich-bao-ly.jpg(code-box)

   Trong đó nội dung phía sau dấu thăng # (pound sign) sẽ được xem như chú thích và được Google bot bỏ qua (làm ngơ)


Chặn tất cả các bot ngoại trừ Google bot với một tập tin cu thể

User-agent: *

Disallow: /no-bots/block-all-bots-except-googlebot-page.html

User-agent: Googlebot

Allow: /no-bots/block-all-bots-except-googlebot-page.html(code-box)

Sử dụng đồng thời “Allow”“Disallow” cùng nhau

User-agent: Googlebot

Disallow: /private/

Allow: /private/example.html(code-box)

   Trong đó chặn Google bot lập chỉ mục với toàn bộ nội dung trong thư mục /private/ nhưng với tập tin example.html thì ok…


Chặn và cho phép một bot cụ thể

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Allow: /(code-box)

   Trong đó chặn không cho Google bot lập chỉ mục toàn bộ website của bạn nhưng với Google bot dành cho mobile thì được phép, phù hợp cho các site có tên miền dạng *.mobi


Chặn và bỏ tất cả các hình trên site của bạn khỏi Google Images:

User-agent: Googlebot-Image

Disallow: /(code-box)

Chặn và bỏ tất cả các hình động (dạng *.gif) trên site của bạn khỏi Google Images:

User-agent: Googlebot-Image

Disallow: /images/*.gif(code-box)

Chỉ định tập tin sitemap cho bot dễ tìm

Sitemap: https://dohuytuong.com/sitemap.xml

Sitemap: https://dohuytuong.com/sitemap.xml.gz(code-box)

   Trong đó Sitemap: thường được đặt ở cuối nội dung tập tin robots.txt nếu website của bạn không sử dụng sitemap có thể bỏ qua dòng này…


   Hi vọng với một vài ví dụ đơn giản trên các bạn có thể tùy biến và sử dụng cho phù hợp với website của mình…



   Dưới đây là danh sách các tập tin robots.txt của các website nổi tiếng bạn có thể xem để tham khảo:


Google: http://www.google.com/robots.txt

Yahoo!: https://www.yahoo.com/robots.txt

Facebook: https://www.facebook.com/robots.txt

Mediafire: http://mediafire.com/robots.txt

Dropbox: https://www.dropbox.com/robots.txt

Amazon: http://www.amazon.com/robots.txt

Fandango: http://www.fandango.com/robots.txt

Bank of America: https://www.bankofamerica.com/robots.txt

Bestbuy: http://www.bestbuy.com/robots.txt

Robots TXT: http://www.robotstxt.org/robots.txt

PayPal: https://www.paypal.com/robots.txt

WordPress: http://wordpress.com/robots.txt

Reddit: http://www.reddit.com/robots.txt

eBay: http://ebay.com/robots.txt

CapitalOne: http://www.capitalone.com/robots.txt

Fry’s Electronics: http://frys.com/robots.txt


Một vài Lưu Ý:


- Vị trí đặt tập tin robots.txt phải là thư mục gốc của website của bạn để đảm bảo Bọ Tìm Kiếm phát hiện và tuân thủ đúng những gì bạn ghi trong đó.


- Chú ý viết đúng cú pháp của tập tin robots.txt… đặt sai có thể dẫn đến website bạn bị Bọ Tìm Kiếm bỏ qua hoặc lập chỉ mục những trang hay tập tin nhạy cảm có trên web.


- Chỉ những Bọ Tìm Kiếm của những dịch vụ hay công ty uy tín mới tôn trọng những gì bạn quy định trong tập tin robots.txt, còn lại những nhóm khác như Bọ của những công ty hay dịch vụ nhỏ lẻ sẽ làm ngơ trước tập tin robots.txt hay còn gọi vui là Bad Bot (malware, phần mềm quét email…) cho nên robots.txt không phải là phương pháp giúp bạn giấu dữ liệu hay bảo sự riêng tư.


 -  Không phải tất các các cú pháp lệnh trong tập tin robots.txt đều được hỗ trợ bởi tất các các bọ tìm kiếm


   Ví dụ: như Google bot hỗ trợ lệnh Host: www.dohuytuong.com các bọ khác thì không hay dạng URL không rõ ràng như /p?= hay search.php?=… bạn nên chỉ định đặc biệt những dòng này riêng cho Google bot.


Ví dụ:

User-agent: Googlebot

# Paths (no clean URLs)

Disallow: /?p=*

Disallow: /?s=*(code-box)

   Sau khi đã tạo cho website mình một tập tin robots.txt hoàn chỉnh và upload lên thư mục gốc của website bạn có thể kiểm tra lại lỗi cú pháp của tập tin robots.txt online tại đây

Đăng nhận xét

0 Nhận xét

   * Xin vui lòng sử dụng Tiếng Việt "có dấu" nhằm hạn chế những hiểu lầm không đáng có khi để lại Nhận Xét của bạn. Tham khảo thêm †Quy Định Bình Luận -> [ Chi Tiết ]

Đăng nhận xét (0)

#buttons=(Đồng Ý !) #days=(15)

   Blog mình sử dụng 'Cookies' giúp nâng cao trải nghiệm cho khách truy cập. Nếu bạn vẫn chọn tiếp tục truy cập, bạn mặc nhiên chấp nhận các điều khoản hiện có trong †Quy Định Riêng Tư. -> [ Chi Tiết ]
Accept !
Top