Cách thức hoạt động của file Robot.txt WordPress là gì? Và tạo file robot.txt như thế nào? – EMG Online

Để chắc là website của bạn Open trên Trang tác dụng tìm kiếm – Search Engine Result Pages ( SERPs ), bạn cần để “ bots ” truy vấn vào những trang quan trọng trên website. File robots.txt được viết tốt hoàn toàn có thể dùng để quản trị truy vấn của những bots này tới trang bạn muốn ( để tránh nó quét những nơi không thiết yếu ). Trong bài này, chúng tôi sẽ hướng dẫn tạo file robot.txt WordPress .

Robot.txt WordPress là gì?

Robots. txt là một tệp tin văn bản nằm trong thư mục gốc của website và phân phối hướng dẫn cho những công cụ tìm kiếm tích lũy thông tin về những trang mà họ hoàn toàn có thể tích lũy thông tin để lập chỉ mục .
Nếu bạn đã đọc bài trước của tôi về cách những công cụ tìm kiếm hoạt động giải trí, thì bạn sẽ biết rằng trong tiến trình tích lũy thông tin và lập chỉ mục, những công cụ tìm kiếm nỗ lực tìm những trang có sẵn công khai minh bạch trên web, mà chúng hoàn toàn có thể đưa vào trong chỉ mục của chúng .

Khi truy cập trang web, điều đầu tiên công cụ tìm kiếm làm là tìm kiếm và kiểm tra nội dung của tệp robots.txt. Tùy thuộc vào các quy tắc được chỉ định trong tệp, chúng tạo ra một danh sách các URLS có thể thu thập dữ liệu và sau đó lập chỉ mục cụ thể cho trang web.

Nội dung của tệp robot.txt WordPress được công khai minh bạch trên Internet. Trừ khi được bảo vệ bằng cách khác ( tôi cũng chưa biết bảo vệ bằng cách nào ), bất kể ai cũng hoàn toàn có thể xem nội dung tệp robots.txt của bạn thế cho nên đây không phải là nơi để thêm nội dung mà bạn không muốn người khác xem .

Hai điều quan trọng cần biết về robots.txt

  • Điều đầu tiên là bất kỳ quy tắc nào bạn thêm vào robots.txt thì đó là chỉ thị. Điều này có nghĩa là công cụ tìm kiếm phải tuân theo và tuân theo các quy tắc bạn đã đưa vào. Trong hầu hết các trường hợp công cụ tìm kiếm đều mò vào công việc thu thâp -> lập chỉ mục, nhưng nếu bạn có nội dung mà bạn không muốn nằm trong chỉ mục của họ thì cách tốt nhất là để mật khẩu bảo vệ thư mục hoặc trang cụ thể.
  • Điều thứ hai là ngay cả khi bạn chặn trang hoặc thư mục trong robots.txt, nó vẫn có thể xuất hiện trong kết quả tìm kiếm nếu nó có liên kết từ các trang khác đã được lập chỉ mục. Nói cách khác, thêm trang bạn muốn chặn vào robots.txt không đảm bảo rằng nó sẽ bị xóa hoặc không xuất hiện trên web. Trước đây tôi có thường xuyên nhìn thấy các kết quả với mô tả “Không có mô tả cho kết quả tìm kiếm hoặc bị chặn”.

Cú pháp của File Robot.txt WordPress

robot.txt WordPress

Các cú pháp được xem là ngôn từ riêng của những tập tin robots.txt. Có 5 thuật ngữ phổ cập mà bạn sẽ phát hiện trong một file robot.txt WordPress là gì ? Chúng gồm có :

  • User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Được sử dụng để thông báo cho các user-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng disallow.
  • Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thự hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo cho các web crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

Định dạng cơ bản của File Robots.txt

Tuy nhiên, bạn vẫn hoàn toàn có thể lược bỏ những phần “ Crawl-Delays ” và “ Sitemap ”. Đây là định dạng cơ bản để tạo robots.txt WordPress hoàn hảo. Tuy nhiên trên trong thực tiễn thì file robots.txt là gì chứa nhiều dòng User-agent và nhiều thông tư của người dùng .
Chẳng hạn như những dòng lệnh : Disallows, Allows, Crawl-Delays, … Trong file robots.txt là gì chuẩn nhất, bạn chỉ định cho nhiều con Bot khác nhau. Mỗi lệnh thường được viết riêng không liên quan gì đến nhau cách nhau bởi 1 dòng .
Trong một file robots.txt wordpress bạn hoàn toàn có thể chỉ định nhiều lệnh cho những con Bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots.txt là gì có nhiều lệnh so với 1 loại Bot thì mặc định Bot sẽ làm theo lệnh được viết rõ và khá đầy đủ nhất .

Lưu ý về File Robot.txt WordPress chuẩn

  • Để chặn tất cả các Website Crawler không được thu thập bất kì dữ liệu nào trên Website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent : *
Disallow : /

  • Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên Website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent : *
Disallow :

  • Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kì trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:

User-agent : Googlebot
Disallow : / example-subfolder /

  • Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:

User-agent : Bingbot
Disallow : / example-subfolder / blocked-page.html

Robot.txt WordPress hoạt động như thế nào?

Tệp robot có một cấu trúc rất đơn thuần. Có một số ít tích hợp từ khóa / giá trị được xác lập trước mà bạn hoàn toàn có thể sử dụng .
Phổ biến nhất là : User-agent, Disallow, Allow, Crawl-delay, Sitemap .

User-agent:

Chỉ định trình thu thập dữ liệu nào được đưa vào những thông tư. Bạn hoàn toàn có thể sử dụng một * để cho tổng thể những trình tích lũy thông tin hoặc nếu không thích thì bạn hoàn toàn có thể chỉ định tên của trình tích lũy thông tin, xem ví dụ dưới đây .

  • User-agent: * – bao gồm tất cả trình thu thập thông tin.
  • User-agent: Googlebot – chỉ dành cho Google bot.

Disallow:

Chỉ thị hướng dẫn những bot ( được chỉ định ở trên ) không thu thập dữ liệu URL hoặc một phần của website. Giá trị của disallow hoàn toàn có thể là một tệp, URL hoặc thư mục đơn cử. Xem ví dụ dưới đây được triển khai từ bộ phận tương hỗ kỹ thuật của Google .

Allow:

Chỉ thị cho biết rõ những trang hoặc thư mục con nào hoàn toàn có thể được truy vấn. Điều này chỉ vận dụng cho Googlebot .
Bạn hoàn toàn có thể sử dụng Allow để cho phép truy vấn vào một thư mục con đơn cử trên website của bạn, mặc dầu thư mục gốc là không được phép .
Ở ví dụ dưới đây tôi chặn thư mục photo nhưng tôi tại được cho phép lập chỉ mục trong photos / vietnetgroup

  • User-agent: *
  • Disallow: /photos
  • Allow: /photos/vietnetgroup/

Crawl-delay:

Bạn hoàn toàn có thể để đơn cử một giá trị để buộc trình thu thập dữ liệu tích lũy thông tin của công cụ tìm kiếm đợi một khoảng chừng thời hạn đơn cử trước khi tích lũy thông tin trang tiếp theo từ website của bạn. Giá trị bạn nhập đơn vị chức năng là mili giây. Cần chú ý quan tâm rằng Googlebot không tính đến độ Crawl-delay này .
Bạn hoàn toàn có thể sử dụng Google Search Console để trấn áp vận tốc tích lũy thông tin cho Google ( tùy chọn này ở trong Cài đặt website ) tôi chụp ảnh màn hình hiển thị dưới đây. Bạn hoàn toàn có thể sử dụng Crawl-delay trong trường hợp bạn có website với hàng ngàn trang và bạn không muốn quá tải sever của mình với những nhu yếu liên tục. Trong hầu hết những trường hợp, bạn không nên sử dụng thông tư thu thập dữ liệu trễ này làm gì .

Sitemap:

Chỉ thị sitemap được tương hỗ bởi những công cụ tìm kiếm chính gồm có Google và nó được sử dụng để chỉ định vị trí của Sơ đồ trang web XML của bạn. ( Nếu muốn xem bài sơ đồ trang XML thì nhấp vào link cạnh bên đó nhé ) Ngay cả khi bạn không chỉ định vị trí của sơ đồ trang XML trong robot.txt, những công cụ tìm kiếm vẫn hoàn toàn có thể tìm thấy nó .
Một điều quan tâm quan trọng cho bạn đó là robots có phân biệt chữ hoa và chữ thường. Ví dụ : Disallow : / File. html thì sẽ không khóa được file.html

robot.txt WordPress

Cách tạo file robots.txt

Tạo tệp robots.txt rất thuận tiện. Tất cả bạn cần là một trình soạn thảo văn bản ( tôi thường xùng notepad ) và truy vấn những tệp của website của bạn ( qua FTP hoặc bảng điều khiển và tinh chỉnh quản trị hosting ). Trước khi tham gia quy trình tạo tệp tin robot, điều tiên phong cần làm là kiểm tra xem nó đã có chưa. Cách dễ nhất để thao tác này là mở một cửa sổ trình duyệt mới và truy vấn đến https : / / www. tênmiền. com / robots.txt
Nếu bạn thấy một thứ tựa như như dưới đây, có nghĩa là bạn đã có tệp robots.txt và bạn hoàn toàn có thể chỉnh sửa tệp hiện tại thay vì tạo tệp mới .

  • User-agent: *
  • Allow: /

Cách chỉnh sửa robots.txt

Sử dụng ứng dụng khách FTP và liên kết với thư mục gốc của website của bạn. Robots. txt luôn nằm trong thư mục gốc ( www hoặc public_html, tùy thuộc vào sever của bạn ). Tải tập tin về máy tính của bạn và mở nó bằng một trình soạn thảo văn bản. Thực hiện những biến hóa thiết yếu và tải tệp lên sever của bạn .
Ví dụ về tệp tin robots.txt

  • User-agent: *
  • Allow: /
  • Sitemap:

Điều này được cho phép toàn bộ những chương trình truy vấn website của bạn mà không chặn bất kể thư mục, url nào. Nó cũng xác lập vị trí sơ đồ website để làm cho những công cụ tìm kiếm dễ tìm nó hơn .

EMG Online Co,.LTD

  • Hotline: 098-300-9285
  • Email: info@emg.com.vn
  • Website: www.emg.com.vn | www.EMG Online.vn

Các tìm kiếm liên quan

  • Plugin robots txt wordpress
  • robot.txt là gì
  • Edit robots txt WordPress
  • Webmaster tools robots txt
  • file robots.txt chuẩn cho wordpress
  • Add robots txt to WordPress
  • Add robot txt
  • Mẫu file robot txt

Nguồn: https://shopdothang.com/:

ĐÁNH GIÁ post
Bài viết liên quan

Tư vấn miễn phí (24/7) 094 179 2255