Cách tạo file robots.txt cho wordpress

tạo file robots.txt cho wordpress

Tạo file robots.txt cho WordPress là gì? Để chắc là website của bạn xuất hiện trên Trang kết quả tìm kiếm – Search Engine Result Pages (SERPs), bạn cần để “bots” truy cập vào những trang quan trọng trên website. File robots.txt được viết tốt có thể dùng để quản lý truy cập của những bots này tới trang bạn muốn (để tránh nó quét những nơi không cần thiết). Hãy cùng SEMTEK tìm hiểu cách tạo file txt ngay trong bài viết sau.

Cách tạo file txt cho WordPress là gì?

1. File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn giản có dạng .txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn web quy định cách robot web (hoặc robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

REP cũng bao gồm các lệnh như meta robots, page-subdirectory, site-wide instructions. Nó hướng dẫn các công cụ tìm kiếm xử lí các liên kết. (ví dụ: follow hay nofollow link)

2. Lý do tạo file robots.txt cho WordPress

Việc tạo file robots.txt cho wordpress giúp bạn kiểm soát việc truy cập của các con bots đến các khu vực nhất định trên trang web. Và điều này có thể vô cùng nguy hiểm nếu như bạn vô tình sai một vài thao tác khiến Googlebot không thể index website của bạn.

Tuy nhiên, cách tạo file txt cho wordpress vẫn thật sự hữu ích bởi nhiều lí do:

  • Ngăn chặn nội dung trùng lặp xuất hiện trong website (lưu ý rằng các robot meta thường là lựa chọn tốt hơn cho việc này)
  • Giữ một số phần của trang web ở chế độ riêng tư
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
  • Chỉ định vị trí của sitemap
  • Ngăn các công cụ tìm kiếm index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
  • Dùng lệnh crawl delay để cài đặt thời gian. Điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
  • Nếu bạn không muốn ngăn các web crawler tiến hành thu thập dữ liệu từ website thì bạn hoàn toàn không cần tạo file robots.txt cho wordpress.
cách tạo file txt

Trên thực tế, trình tìm kiếm sẽ quét site của bạn kể cả khi bạn không có cài file robots.txt. Nhưng sẽ không đạt hiểu quả cao, do bot sẽ index toàn bộ nội dung của bạn, và quét sâu đến độ có thể nó sẽ hiển thị những nơi bạn không muốn người khác truy cập vào.

3. Cú pháp của tệp robots.txt

Các cú pháp được xem là ngôn ngữ riêng của cách tạo file txt..

Có 5 thuật ngữ phổ biến mà bạn có thể bắt gặp trong một file robots.txt. Chúng bao gồm:

  • User-agent: Phần này là tên của các trình thu thập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Lệnh này được sử dụng để thông báo cho các user-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng disallow.
  • Allow (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Phần này thông báo cho các web crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng
  • Googlebot không thừa nhận lệnh này. Bạn có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Lệnh này được sử dụng để cung cấp các vị trí của bất kì XML sitemap nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.

4. Robots.txt file hoạt động như thế nào?

Các công cụ tìm kiếm có 2 nhiệm vụ chính:

  • Crawl (cào/ phân tích) dữ liệu trên trang web để khám phá nội dung
  • Index nội dung đó để đáp ứng yêu cầu cho các tìm kiếm của người dùng

Để crawl được dữ liệu của trang web thì các công cụ tìm kiếm sẽ đi theo các liên kết từ trang này đến trang khác. Cuối cùng, nó thu thập được dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl dữ liệu này còn được biết đến với tên khác là “spidering”.

Sau khi đến một trang web, trước khi spidering thì các con bot của công cụ tìm kiếm sẽ tìm các file robots.txt wordpress. Nếu nó tìm thấy được 1 tệp robots.txt thì nó sẽ đọc tệp đó đầu tiên trước khi tiến hành các bước tiếp theo.

File robots.txt chứa các thông tin về cách các công cụ tìm kiếm nên thu thập dữ liệu của website. Tại đây các con bot này sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.

Nếu tệp robots.txt không chứa bất kì chỉ thị nào cho các user-agent hoặc nếu bạn không tạo file robots.txt cho website thì các con bots sẽ tiến hành thu thập các thông tin khác trên web.

Cách tạo file txt cho WordPress?

Sau khi bạn đã quyết định rule nào sẽ được đặt trong cách tạo file txt, phần còn lại là tạo nó thôi. Bạn có thể chỉnh sửa file robots.txt trong WordPress bằng plugin hoặc thủ công. Trong phần này, chúng tôi sẽ chỉ bạn dùng 2 plugin phổ biến để tạo file robots.txt cho WordPress và cách thủ công để tạo file robots.txt rồi upload lên host.

cách tạo file txt

1. Sử dụng Yoast SEO

Yoast SEO thì chắc không cần phải giới thiệu nữa. Bất kỳ ai cần SEO cho WordPress website chắc đã có cài plugin này. Nó hướng dẫn bạn tối ưu bài viết và từng trang web bằng cách tận dụng từ khóa tốt hơn. Ngoài ra, nó cũng giúp bạn tăng khả năng dễ đọc của bài viết, giúp cho bài viết giữ chân người đọc lâu hơn.

  • Sử dụng Yoast SEO vì tính tiện dụng của nó. Cách tạo file txt cũng đơn giản nếu bạn đã có pluign này.
  • Sau khi bạn cài đặt plugin này xong chuyển tới tab SEO -> Tools trong dashboard của bạn, tìm tới mục gọi là File editor.
  • Click vào link đó sẽ gửi bạn tới trang mới, nơi bạn có thể chỉnh sửa file .htaccess mà không cần thoát dashboard (trang admin WordPress). Có một nút gọi là  Create robots.txt file, sẽ giúp bạn tạo file robots.txt.
  • Khi bạn click vào nút này, tab sẽ hiển thị editor mới nơi bạn có thể chỉnh sửa file robots.txt trực tiếp. Lưu ý là Yoast SEO sẽ đặt giá trị mặc định của nó, để ghi đè lên file ảo robots.txt.
  • Mỗi khi bạn thêm rules mới hoặc xóa rules cũ, nhớ click nút Save changes to robots.txt để lưu lại.

Vậy là xong, bạn đã tạo xong file robots.txt chuẩn cho WordPress. Giờ hãy xem cách tạo bằng plugin khác, cũng nổi tiếng không kém.

2. Qua bộ plugin All in One SEO Pack

All in One SEO Pack là một plugin rất nổi tiếng trong giới WordPress SEO. Nó bao gồm tất cả những tính năng của Yoast SEO, nhưng nhiều người thích nó hơn vì nó nhẹ hơn. Cũng như vậy với việc tạo file robots.txt cho WordPress, nếu có plugin này thì mọi chuyện rất dễ dàng.

  • Sau khi bạn đã hoàn tất set up plugin này, chuyển tới mục All in One SEO > Feature Manager trong dashboard. Ở trong đó, hãy tìm tùy chọn có tên Robots.txt, với nút Activate ngay bên dưới. Click vào nó.
  • Tab mới Robots.txt sẽ hiện bên dưới menu All in One SEO. Bạn click vào đó sẽ thấy nhiều lựa chọn để thêm rules mới cho file, lưu thay đổi hoặc xóa nó đi.
  • Lưu ý là bạn chưa thể thay đổi file robots.txt trực tiếp từ plugin này. Phần nội dung sẽ bị mờ đi, khác với Yoast SEO là cho bạn gõ tùy thích vào file:

3. Tạo rồi upload file robots.txt WordPress qua FTP

  • Chọn loại file là txt. Chỉ mất ít phút để làm việc này nên bạn có thể dễ dàng tạo file robots.txt trong WordPress mà không cần tới plugin.
  • Sau khi bạn tạo xong, bạn cần kết nối tới website qua FTP.
  • Sau khi đã kết nối thành công, chuyển vào thư mục public_html.
  • Tại đây, bạn chỉ cần upload (kéo thả) file robots.txt từ máy tính sang tới server là được. Bạn cũng có thể làm vậy bằng cách click chuột phải vào file và chọn upload.
  • Kiểm tra xem file WordPress robots.txt có hoạt động không và gửi nó lên Google Search Console
  • Khi file chuẩn WordPress robots.txt đã được tạo và upload thành công, bạn có thể dùng Google Search Console để kiểm thử nó xem có lỗi không.
  • The Search Console là bộ tools mà Google cung cấp để kiểm tra nội dung site của bạn hiển thị như thế nào với trình tìm kiếm.
  • Một trong số các tools này là để kiểm tra robots.txt.  Để sử dụng, bạn đăng nhập vào console, và chuyển tới tab robots.txt Tester:
  • Bên trong, bạn sẽ thấy trường editor mà bạn có thể nhập code của file robots.txt vào, click vào nút Submit.
  • Nhấn vào nút Ask Google to Update để gửi lên Google.

Liên hệ với SEMTEK để tháo nút thắt cho website của bạn bằng giải pháp về Marketing!

SEMTEK Co,.LTD

🏡 Địa chỉ: 2N Cư Xá Phú Lâm D, Phường 10, Quận 6, TP.HCM
📧 Email: info@semtek.com.vn
☎️ Hotline: (+84)098.300.9285

Tìm kiếm liên quan:

  • Tạo file txt trên Android
  • Tạo file txt bằng CMD
  • Cách lưu file txt
  • Cách tạo file TXT trên Macbook
  • Tài file txt
  • Mở file txt

Nội dung liên quan

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *