Robots.txt là gì? – Hướng dẫn cách tạo và sử dụng robots.txt

⌈ Robots.txt là gì? – Hướng dẫn cách tạo và sử dụng robots.txt ⌋

Search Bot

Robots.txt là gì ?

   Web Robot (còn được gọi là Web Wanderer, Crawler hay Spider nhưng trong bài viết này mình xin tạm dịch là bọ tìm kiếm) là một chương trình được lập trình tự động thực hiện một công việc nào đó khi truy cập vào website của bạn. VD: bọ tìm kiếm của Google, Yahoo!, Bing được lập trình để index (lập chỉ mục) nội dung trên website của bạn, spammer có thể dùng bọ để tìm kiếm và lưu trữ danh sách địa chỉ email hay số điện thoại có trên website của bạn…

   Robots.txt thực chất chỉ là một tập tin văn bản thuần có nội dung được viết theo một cú pháp định sẵn, quy định (cho phép) bọ tìm kiếm được phép hoặc giới hạn hoạt động một số mục trên website của bạn.

Cách tạo tập tin robots.txt như thế nào ?

   Vì đơn giản chỉ là một tập tin văn bản thuần nên bạn có thể dùng bất kỳ một ứng dụng soạn thảo văn bản nào như Notepad, WordPad hay thậm chí Microsoft Word miễn là khi lưu lại bạn lưu ý chọn định dạng mở rộng là .txt (Text file) và phải đặt đúng cấu trúc tên tập tin là robots.txt (đúng và đủ) không phải là Robots.txt hay robot.TXT

Dưới đây là một vài nguồn tham khảo thêm về tập tin robots.txt cho bạn:
   – HTML 4.01 specification, Appendix B.4.1
   – Wikipedia – Robots Exclusion Standard
   – About /robots.txt

Đặt tập tin robots.txt ở đâu

   Ngay thư mục gốc (root) của website của bạn thường ngang hàng với các tập tin như index.php, index.html hoặc default.aspx

VD: https://www.dohuytuong.com/robots.txt
       http://www.dohuytuong.net/robots.txt

Search Engine Spider

Cấu trúc nội dung tập tin robots.txt

Sau đây là một ví dụ đơn giản về nội dung tập tin robots.txt

User-agent: *
Allow: /my-blog/
Disallow: /cgi-bin/

   Trong đó User-agent: Trong đó User-agent: là đại diện của một bọ tìm kiếm của một search engine, dấu đại diện cho tất các các bọ tìm kiếm của tất cả các search engine… nếu bạn muốn chỉ định cụ thế với một bọ tìm kiếm cụ thể có thể dùng cú pháp như sau (mình dùng Google bot làm ví dụ).

Danh sách chi tiết các crawler bot tìm tại đây

User-agent: Googlebot
Allow: /my-blog/
Disallow: /cgi-bin/

   Trong đó hai dòng lệnh Allow:Disallow: quy định cho phép hoặc không cho phép Google bot đánh chỉ mục một thư mục nào đó …

Một số lưu ý với cú pháp của robots.txt

– Phân biệt chữ hoa chữ thường. VD: /cgi-bin/ khác với /Cgi-Bin/
– Không được viết dư, thiếu khoản trắng.
– Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
– Mỗi một câu lệnh nên viết trên một dòng duy nhất.
– Không thay đổi trật tự cú pháp dòng lệnh User-agent: (luôn nằm trên) và Disallow: (luôn nằm dưới)

Search Engine Crawler

Sau đây là một số ví dụ cụ thể cách sử dụng tập tin robots.txt

  • Chặn tất cả các bot và nội dung
    User-agent: *
    Disallow: /
    

       Facebook là một trong những site nổi tiếng gần như chặn tất các các bot và nội dung… bạn có thể tìm hiểu tập tin robots.txt của Facebook để học hỏi thêm…

  • Cho phép tất các các bot lập chỉ mục tất cả các nội dung

    User-agent: *
    Allow: /
    

  • Chặn một thư mục cụ thể và mọi nội dung nằm trong nó

    User-agent: *
    Disallow: /private/
    

  • Chặn một tập tin cụ thể và mọi nội dung nằm trong nó

    User-agent: *
    Disallow: /private_file.html
    

  • Chặn và loại bỏ một hình cụ thể khỏi Google Images

    # I don't want to index my honey photo :>
    User-agent: Googlebot-Image
    Disallow: /private/my-love/vu-bich-bao-ly.jpg 
    

       Trong đó nội dung phía sau dấu thăng # (pound sign) sẽ được xem như chú thích và được Google bot bỏ qua (làm ngơ)

  • Chặn tất cả các bot ngoại trừ Google bot với một tập tin cu thể

    User-agent: *
    Disallow: /no-bots/block-all-bots-except-googlebot-page.html
    User-agent: Googlebot
    Allow: /no-bots/block-all-bots-except-googlebot-page.html
    

  • Sử dụng đồng thời “Allow” và “Disallow” cùng nhau

    User-agent: Googlebot
    Disallow: /private/
    Allow: /private/example.html
    

       Trong đó chặn Google bot lập chỉ mục với toàn bộ nội dung trong thư mục /private/ nhưng với tập tin example.html thì ok…

  • Chặn và cho phép một bot cụ thể

    User-agent: Googlebot
    Disallow: /
    User-agent: Googlebot-Mobile
    Allow: /
    

       Trong đó chặn không cho Google bot lập chỉ mục toàn bộ website của bạn nhưng với Google bot dành cho mobile thì được phép, phù hợp cho các site có tên miền dạng *.mobi

  • Chặn và bỏ tất cả các hình trên site của bạn khỏi Google Images:

    User-agent: Googlebot-Image
    Disallow: /
    

  • Chặn và bỏ tất cả các hình động (dạng *.gif) trên site của bạn khỏi Google Images:

    User-agent: Googlebot-Image
    Disallow: /images/*.gif
    

  • Chỉ định tập tin sitemap cho bot dễ tìm

    Sitemap: https://dohuytuong.com/sitemap.xml
    Sitemap: https://dohuytuong.com/sitemap.xml.gz
    

       Trong đó Sitemap: thường được đặt ở cuối nội dung tập tin robots.txt nếu website của bạn không sử dụng sitemap có thể bỏ qua dòng này…

   Hi vọng với một vài ví dụ đơn giản trên các bạn có thể tùy biến và sử dụng cho phù hợp với website của mình…

Search Engine Crawlers

   Dưới đây là danh sách các tập tin robots.txt của các website nổi tiếng bạn có thể xem để tham khảo:



Lưu ý:
   Không phải tất các các cú pháp lệnh trong tập tin robots.txt đều được hỗ trợ bởi tất các các bọ tìm kiếm

Ví dụ: như Google bot hỗ trợ lệnh Host: www.dohuytuong.com các bọ khác thì không hay dạng URL không rõ ràng như /p?= hay search.php?=… bạn nên chỉ định đặc biệt những dòng này riêng cho Google bot

User-agent: Googlebot
# Paths (no clean URLs)
Disallow: /?p=*
Disallow: /?s=*

   Sau khi đã tạo cho website mình một tập tin robots.txt hoàn chỉnh và upload lên thư mục gốc của website bạn có thể kiểm tra lại lỗi cú pháp của tập tin robots.txt online tại đây


Copyright © 2013 – 2022 by Đỗ Huy Tưởng.
All rights reserved.


Đỗ Huy Tưởng

* Nếu có bản án khắc nghiệt nhất dành cho anh :'( vì cái tội dám <3 em anh xin lãnh án tù chung thân bên em suốt đời :P

    1 Góp ý

    Đỗ Huy Tưởng Gửi lúc: 10:12 AM - March 13, 2017

       Sau này đa số các plugin hỗ trợ SEO cho WordPress đều có tính năng tự động tạo sitemaps và robots.txt nữa, nên nó khuyến cáo disable hoặc xóa hẳn tập tin robots.txt đi để tránh xung đột…

       Mình không còn nhu cầu dùng nữa, nên muốn chi sẻ tập tin robots.txt của blog mình cho mấy bạn tham khảo nếu thích.

    Link Google Drive nhe: robots.txt