TẠO FILE ROBOTS.TXT CHO WORDPRESS

Cú pháp của tệp tin robots.txtNhững hạn chế của tệp tin robots.txt3 bí quyết tạo file robots.txt Wordpress 1-1 giảnCâu hỏi thường chạm chán về robots.txt

Đã bao giờ bạn tưởng tượng làm sao một robot của biện pháp tìm kiếm hoàn toàn có thể phân tích dữ liệu của một website nhằm index (lập chỉ mục) không?

Bạn đang sở hữu một trang web Wordpress? Đôi lúc bạn có nhu cầu Googlebot nhanh index trang web của bạn hoặc ko index một trang rõ ràng nào đó? Vậy làm cách nào bây giờ?

Tôi có thể lập tức trả lời cho bạn: sinh sản file robots.txt cho WordPress ngay cùng luôn! Để hiểu về file robots.txt và phương pháp tạo, tôi sẽ mang về cho bạn nội dung bài viết cực ích sau đây.

Bạn đang xem: Tạo file robots.txt cho wordpress

Bài viết này sẽ khuyên bảo cho bạn:

Hiểu rõ tư tưởng file robots.txt là gì?Cấu trúc cơ bạn dạng của một tệp tin robots.txtCó những chú ý nào khi chế tác lập robots.txt WordPressTại sao phải yêu cầu robots.txt mang đến website của bạnCách tạo ra lập 1 file hoàn hảo cho website của bạn

Bắt đầu tò mò nhé!


File robots.txt là gì?

File robots.txt là một trong những tập tin văn bản đơn giản tất cả dạng .txt. Tệp này là 1 phần của Robots Exclusion Protocol (REP) chứa một tổ các tiêu chuẩn chỉnh Web quy định cách Robot website (hoặc Robot của những công cầm tìm kiếm) tích lũy dữ liệu bên trên web, truy nã cập, index văn bản và hỗ trợ nội dung đó cho tất cả những người dùng.


*
Tìm hiểu về robots.txt lập chỉ mục mang lại website của bạn

REP cũng bao hàm các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó phía dẫn những công cụ của Google xử lí những liên kết. (ví dụ: Follow hay Nofollow link).

Trên thực tế, chế tạo ra robots.txt Wordpress giúp các nhà quản trị website linh hoạt, chủ động hơn trong việc chất nhận được hay không cho các con bot của hiện tượng Google Index một trong những phần nào đó trong trang của mình.

Cú pháp của tệp tin robots.txt

Các cú pháp được coi là ngôn ngữ riêng của những tập tin robots.txt. Bao gồm 5 thuật ngữ phổ biến mà bạn sẽ bắt gặp mặt trong một tệp tin robots.txt. Bọn chúng bao gồm:

User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)Disallow: Được sử dụng để thông báo cho các User-agent không tích lũy bất kì tài liệu URL rõ ràng nào. Từng URL chỉ được sử dụng 1 loại Disallow.Allow (chỉ vận dụng cho bọ search kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy vấn một trang hoặc folder con. Tuy vậy các trang hoặc các thư mục con của nó rất có thể không được phép.

Pattern – Matching

Trên thực tế các file robots.txt Wordpress khá tinh vi để có thể chặn hoặc cho phép các con bot vị chúng được cho phép sử dụng thiên tài Pattern-Matching để bao hàm một loạt các tùy lựa chọn của URL.

Tất cả những công thế của Google cùng Bing được cho phép sử dụng 2 biểu thức thiết yếu để xác minh các trang hoặc thư mục con mà SEO muốn loại trừ. Hai kí trường đoản cú này là vệt hoa thị (*) và ký hiệu đô la ($).

* là kí tự thay mặt đại diện cho bất kì chuỗi kí tự như thế nào – có nghĩa là nó được áp dụng cho mọi loại Bots của những công thế Google.$ là kí tự khớp cùng với phần cuối của URL.

Định dạng cơ phiên bản của file robots.txt

Tệp robots.txt gồm định dạng cơ bản sau:

User-agent:Disallow:Allow:Crawl-delay:Sitemap:Tuy nhiên, các bạn vẫn có thể lược bỏ các phần Crawl-delay và Sitemap. Đây là format cơ bản của robots.txt Wordpress trả chỉnh. Tuy vậy trên thực tiễn thì tệp tin robots.txt chứa được nhiều dòng User-agent và nhiều thông tư của người dùng hơn.

Chẳng hạn như các dòng lệnh: Disallow, Allow, Crawl-delay, … Trong file robots.txt, các bạn chỉ định mang đến nhiều nhỏ bot không giống nhau. Mỗi lệnh thường được viết cá biệt cách nhau vày 1 dòng.

Trong một tệp tin robots.txt Wordpress bạn cũng có thể chỉ định các lệnh cho những con bot bằng cách viết liên tiếp không bí quyết dòng. Mặc dù trong trường đúng theo một tệp tin robots.txt có không ít lệnh đối với 1 các loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.

File robots.txt chuẩn

Để chặn toàn bộ các website Crawler không được tích lũy bất kì dữ liệu nào bên trên website bao gồm cả trang chủ. Bọn họ hãy thực hiện cú pháp sau:

User-agent: *Disallow: /Để cho phép tất cả những trình tích lũy thông tin truy cập vào toàn bộ các ngôn từ trên website bao gồm cả trang chủ. Chúng ta hãy áp dụng cú pháp sau:

User-agent: *Disallow: Để chặn trình thu thập, kiếm tìm kiếm tin tức của Google (User-agent: Googlebot) không thu thập bất kì trang nào gồm chứa chuỗi URL www.example.com/example-subfolder/. Bọn họ hãy thực hiện cú pháp sau:

User-agent: GooglebotDisallow: /example-subfolder/Để ngăn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang ví dụ tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:

User-agent: BingbotDisallow: /example-subfolder/blocked-page.html

Ví dụ mang lại file robots.txt chuẩn

Dưới đây là ví dụ về tệp robots.txt chuyển động cho website www.example.com:

User-agent: *Disallow: /wp-admin/Allow: /Sitemap: https://www.example.com/sitemap_index.xmlTheo bạn, cấu trúc file robots.txt có chân thành và ý nghĩa như cố kỉnh nào? Để tôi giải thích. Điều này minh chứng bạn chất nhận được toàn bộ các công cụ của Google theo link www.example.com/sitemap_index.xml để tìm tới file robots.txt với phân tích. Cùng index cục bộ các dữ liệu trong những trang trên website của chúng ta ngoại trừ trang www.example.com/wp-admin/.

Đừng quên đăng ký học thử ngay 3 ngày miễn mức giá khóa Entity Mastermind – Năng cấp khả năng SEO khiến cho bạn X10 Organic Traffic sau 6 tháng.


*

Tại sao bạn cần tạo file robots.txt?

Việc tạo ra robots.txt đến website góp bạn điều hành và kiểm soát việc truy vấn của các con Bots đến các quanh vùng nhất định bên trên trang web. Cùng điều này có thể vô cùng nguy nan nếu chúng ta vô tình sai một vài ba thao tác khiến Googlebot không thể index website của bạn. Mặc dù nhiên, việc tạo file robots.txt vẫn thật sự có lợi bởi nhiều lí do:

Giữ một số trong những phần của trang ở chính sách riêng tưGiữ những trang hiệu quả tìm tìm nội bộ không hiện trên SERPChỉ xác định trí của SitemapNgăn những công rứa của Google Index một vài tệp nhất định trên trang web của khách hàng (hình ảnh, PDF, …)Dùng lệnh Crawl-delay để cài đặt thời gian. Điều này đã ngăn vấn đề máy chủ của khách hàng bị quá mua khi những trình thu thập dữ liệu tải nhiều nội dung và một lúc.

Nếu bạn không thích ngăn các Web Crawler tiến hành thu thập dữ liệu từ bỏ website thì bạn trọn vẹn không phải tạo robots.txt.


*

Những giảm bớt của file robots.txt

1. Một số trình cẩn thận tìm kiếm không cung cấp các lệnh vào tệp robots.txt

Không yêu cầu công cầm tìm tìm nào cũng sẽ hỗ trợ các lệnh trong tệp robots.txt, vậy cần để bảo mật dữ liệu, cách tốt nhất có thể bạn nên làm là đặt mật khẩu cho những tệp riêng bốn trên máy chủ.

2. Từng trình dữ liệu có cú pháp phân tích tài liệu riêng

Thông thường đối với các trình tài liệu uy tín vẫn tuân theo quy chuẩn của những lệnh trong tệp robots.txt. Nhưng mà mỗi trình search kiếm sẽ sở hữu được cách giải trình tài liệu khác nhau, một số trình sẽ không còn thể gọi được câu lệnh download trong tệp robots.txt. Vậy nên, các web developers phải nắm rõ cú pháp của từng công cụ tích lũy dữ liệu trên website.

3. Bị tệp robots.txt ngăn nhưng Google vẫn rất có thể index

Cho dù trước đó chúng ta đã ngăn một URL trên website của bản thân nhưng URL này vẫn còn xuất hiện thì từ bây giờ Google vẫn hoàn toàn có thể Crawl với index mang đến URL kia của bạn.

Bạn nên xóa URL kia trên website nếu như nội dung phía bên trong không quá đặc trưng để bảo mật cao nhất. Chính vì nội dung trong URL này vẫn hoàn toàn có thể xuất hiện khi ai đó tìm kiếm chúng trên Google.

Một số chú ý khi thực hiện tệp robots.txt

Việc chỉ định các lệnh mang đến từng User-agent là không đề xuất thiết, bởi vì hầu hết những User-agent đều xuất phát từ 1 công rứa tìm tìm và hầu như tuân theo một nguyên tắc chung.Tuyệt đối không được dùng file robots.txt để chặn những dữ liệu riêng bốn như thông tin người dùng vì Googlebot sẽ quăng quật qua các lệnh trong tệp robots.txt nên kỹ năng bảo mật không cao.Để bảo mật dữ liệu cho website cách cực tốt là cần sử dụng mật khẩu riêng cho các tệp hoặc URL ko muốn truy cập trên website. Tuy nhiên, bạn không nên lạm dụng những lệnh robots.txt bởi đôi khi hiệu quả sẽ không tốt như mong muốn.

File robots.txt chuyển động như rứa nào?

Các luật tìm kiếm tất cả 2 trọng trách chính:

Crawl (cào/ phân tích) tài liệu trên trang web để tò mò nội dungIndex ngôn từ đó để đáp ứng yêu cầu cho những tìm tìm của tín đồ dùng
*
Công nuốm tìm kiếm có 2 trọng trách chính: Crawl và Index

Để crawl được dữ liệu của trang web thì các công vắt sẽ đi theo các liên kết tự trang này cho trang khác. Cuối cùng, nó thu thập được dữ liệu thông qua hàng tỷ website khác nhau. Quá trình crawl tài liệu này còn được nghe biết với tên không giống là “Spidering”.

Sau lúc đến một trang web, trước lúc spidering thì các con bot của nguyên tắc Google đang tìm các file robots.txt Wordpress. Nếu như nó tìm kiếm thấy được một tệp robots.txt thì nó sẽ đọc tệp đó trước tiên trước khi tiến hành quá trình tiếp theo.

File robots.txt đang chứa những thông tin về cách các lao lý của Google nên tích lũy dữ liệu của website. Trên đây các con bot này sẽ được hướng dẫn thêm các thông tin ví dụ cho quy trình này.

Nếu tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu khách hàng không sinh sản file robots.txt cho website thì những con bots vẫn tiến hành thu thập các thông tin khác trên web.

File robots.txt nằm chỗ nào trên một website?

Khi chúng ta tạo website WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay dưới thư mục cội của server.

Ví dụ, nếu site của doanh nghiệp đặt trong thư mục cội của showroom leopoldomoreira.com, các bạn sẽ có thể truy cập file robots.txt ở đường dẫn leopoldomoreira.com/robots.txt, kết quả ban đầu sẽ giống như như sau:

User-agent: *Disallow: /wp-admin/Disallow: /wp-includes/Như tôi sẽ nói làm việc trên, phần sau User-agent: dấu * tức là quy tắc được vận dụng cho mọi loại bots trên khắp nơi trên website. Vào trường hợp này, tệp tin này vẫn nói đến bots biết là bọn chúng không được phép vào trong file thư mục wp-admin và wp-includes. Rất hợp lý và phải chăng phải không, vì chưng 2 folder này chứa rất nhiều file thông tin nhạy cảm.

Hãy nhớ đó là một tệp tin ảo, do WordPress tự tùy chỉnh mặc định khi thiết đặt và không chỉnh sửa được (mặc mặc dù nó vẫn hoạt động). Thường thì, vị trí file robots.txt WordPress chuẩn chỉnh được để trong folder gốc, thường được call là public_html cùng www (hoặc thương hiệu website). Và để chế tạo ra file robots.txt cho riêng bạn thì bạn phải tạo một file bắt đầu để thay thế sửa chữa file cũ đặt trong thư mục gốc đó.


*

Ở phần viền dưới, tôi vẫn hướng dẫn chúng ta nhiều cách để tạo bắt đầu file robots.txt mang lại WordPress rất dễ dàng dàng. Mà lại trước tiên, hãy nghiên cứu và phân tích về những quy tắc chúng ta nên thực hiện trong file này.

Làm cầm nào để chất vấn website có file robots.txt không?

Nếu các bạn đang băn khoăn không biết website của bản thân mình có tệp robots.txt không. Hãy nhập Root tên miền của bạn, kế tiếp thêm /robots.txt vào thời điểm cuối URL. Nếu bạn không có trang .txt xuất hiện, thì chắc chắn là website bạn hiện không chế tạo ra robots.txt mang đến Wordpress rồi. Rất đối chọi giản! Tương tự, bạn cũng có thể kiểm tra website của tớ leopoldomoreira.com gồm tạo tệp tin robots.txt tuyệt không bằng cách như trên:

Nhập Root domain name (leopoldomoreira.com) > chèn /robots.txt vào thời gian cuối (kết trái là leopoldomoreira.com/robots.txt) > dìm Enter. Và đợi kết quả là biết ngay thôi!


*
Cách kiểm tra File robots.txt

Quy tắc nào nên được bổ sung vào trong file robots.txt WordPress?

Cho mang đến nay, toàn bộ đều cách xử lý một nguyên tắc tại 1 thời điểm. Tuy nhiên nếu bạn muốn áp dụng những quy tắc khác biệt cho các bot khác nhau thì sao?

Bạn chỉ việc thêm từng cỗ quy tắc vào phần khai báo User-agent cho từng bot.

Ví dụ: Nếu bạn muốn tạo một quy tắc vận dụng cho toàn bộ các bot và một quy tắc không giống chỉ vận dụng cho Bingbot, chúng ta có thể thực hiện như sau:

User-agent: *Disallow: /wp-admin/User-agent: BingbotDisallow: /Ở đây, toàn bộ các bot sẽ ảnh hưởng chặn truy cập / wp-admin / nhưng Bingbot sẽ bị chặn truy vấn cập toàn thể trang web của bạn.


3 biện pháp tạo tệp tin robots.txt Wordpress đối kháng giản

Nếu sau thời điểm kiểm tra, bạn nhận thấy website của chính bản thân mình không bao gồm tệp robots.txt hay đơn giản dễ dàng là ai đang muốn biến đổi tệp robots.txt của mình. Hãy xem thêm 3 biện pháp tạo robots.txt cho Wordpress bên dưới đây:

1. áp dụng Yoast SEO

Bạn rất có thể chỉnh sửa hoặc tạo ra file robots.txt mang lại Wordpress trên chủ yếu Wordpress Dashboard với vài ba bước đối kháng giản. Đăng nhập vào trang web của bạn, khi đăng nhập vào các bạn sẽ thấy bối cảnh của trang Dashboard.

Xem thêm: Lời Bài Hát Ngàn Vì Sao Lấp Lánh (Starry Starry Night), Ngàn Vì Sao Lấp Lánh (Starry Starry Night)

Nhìn phía bên trái màn hình, click vào SEO > Tools > tệp tin editor.


Tính năng file editor vẫn không lộ diện nếu WordPress của công ty vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Vì vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).

Lúc này các bạn sẽ thấy mục robots.txt và .htaccess tệp tin – đấy là nơi giúp đỡ bạn tạo file robots.txt đấy.

*
Điều chỉnh và chế tạo ra file robots.txt trực tiếp bên trên Yoast SEO

2. Qua cỗ Plugin All in One SEO

Hoặc chúng ta cũng có thể sử dụng cỗ Plugin All in One SEO để tạo ra file robots.txt WordPress cấp tốc chóng. Đây cũng là 1 trong plugin app cho WordPress – Đơn giản, dễ dàng sử dụng.

Để tạo file robots.txt WordPress, các bạn phải đến giao diện bao gồm của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active đến mục robots.txt

Lúc này, trên bối cảnh sẽ lộ diện nhiều kĩ năng thú vị:


Và lúc đó, mục robots.txt sẽ xuất hiện thêm như một tab mới trong thư mục béo All in One SEO. Chúng ta cũng có thể tạo lập cũng như điều chỉnh file robots.txt Wordpress tại đây.


Tuy nhiên, cỗ plugin này còn có một chút biệt lập so cùng với Yoast SEO tôi vừa đề cập ở trên.

All in One SEO có tác dụng mờ đi tin tức của file robots.txt cầm vì chúng ta được sửa đổi file như lao lý Yoast SEO. Điều này có thể khiến các bạn hơi bị động một chút khi chỉnh sửa file robots.txt Wordpress. Mặc dù nhiên, lành mạnh và tích cực mà nói, nguyên tố này để giúp đỡ bạn tiêu giảm thiệt hại cho website của mình. Đặc biệt một số Malware bots sẽ gây nên hại đến website mà chúng ta không ngờ tới.

3. Tạo rồi upload tệp tin robots.txt qua FTP

Nếu bạn không thích sử dụng plugin để chế tạo file robots.txt Wordpress thì tôi có một cách này cho chính mình – Tự tạo nên file robots.txt bằng tay thủ công cho Wordpress của mình.


Bạn chỉ mất vài ba phút để tạo ra file robots.txt Wordpress này bằng tay. áp dụng Notepad hoặc Textedit để sinh sản mẫu tệp tin robots.txt Wordpress theo Rule tôi đã giới thiệu ở đầu viết. Sau đó upload file này qua FTP không cần thực hiện plugin, quá trình này rất đơn giản không tốn bạn không ít thời gian đâu.

Một số nguyên tắc khi chế tạo file robots.txt

Để được các con bot search thấy thì những file robots.txt Wordpress đề xuất được đặt trong các thư mục cấp cao nhất của trang web.Txt phân minh chữ hoa cùng chữ thường. Chính vì như thế tệp phải được lấy tên là robots.txt. (không đề xuất Robots.txt tuyệt robots.TXT, …)Không nên được đặt /wp-content/themes/ tuyệt /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công ráng nhìn nhận đúng chuẩn về bối cảnh blog giỏi website của bạn.Một số User-agent chọn cách bỏ qua những file robots.txt chuẩn chỉnh của bạn. Điều này khá thông dụng với các User-agent bất thiết yếu như: Malware robots (bot của các đoạn mã độc hại)Các trình Scraping (quá trình tự tích lũy thông tin) add Email các tệp robots.txt thông thường sẽ có sẵn cùng được công khai trên web. Bạn chỉ cần thêm /robots.txt vào cuối bất cứ Root Domain nhằm xem các chỉ thị của trang web đó. Điều này có nghĩa là bất kì ai ai cũng thấy những trang bạn muốn hoặc không muốn crawl. Bởi vậy chớ sử dụng các tệp này nhằm ẩn thông tin cá nhân của bạn dùng.

Một số lưu ý khi thực hiện file robots.txt

Hãy bảo đảm an toàn rằng các bạn không chặn bất kì nội dung hoặc phần nào trên website mà bạn có nhu cầu Google index.

Các links trên thiết bị chặn do việcrobots.txt sẽ không được các bot theo dõi. Trừ khi các link này còn có liên kết với các trang không giống (các trang không bị chặn bởi robots.txt, Meta Robots,…). Nếu không, những tài nguyên được liên kết rất có thể sẽ ko được thu thập và lập chỉ mục.

Link juice sẽ không được truyền từ các trang bị ngăn đến những trang đích. Chính vì như vậy nếu mong mỏi dòng mức độ mạnh links juice truyền qua các trang này thì các bạn hãy áp dụng một cách thức khác thay vì chưng tạo robots.txt WordPress.

Không nên thực hiện file robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người tiêu dùng riêng tư) lộ diện trong hiệu quả SERP. Cũng chính vì trang web chứa thông tin cá thể này hoàn toàn có thể liên kết với tương đối nhiều trang web khác. Bởi vì đó các con bot sẽ quăng quật quá các chỉ thị của tệp robots.txt trên Root tên miền hay home của bạn, nên website này vẫn hoàn toàn có thể đượclập chỉ mục.

Nếu bạn có nhu cầu chặn website này khỏi các hiệu quả tìm kiếm, hãy thực hiện một phương thức khác thay do tạo tệp tin robots.txt cho WordPress như cần sử dụng mật khẩu bảo vệ hay Noindex Meta Directive. Một số công vắt tìm kiếm có khá nhiều User-agent. Chẳng hạn, Google sử dụng Googlebot cho những tìm kiếm miễn phí tổn và Googlebot-Image cho các tìm kiếm hình ảnh.

Hầu hết các User-agent từ thuộc một biện pháp đều tuân thủ theo đúng một quy tắc. Cho nên vì thế bạn không đề xuất chỉ định các lệnh mang lại từng User-agent. Mặc dù việc làm này vẫn hoàn toàn có thể giúp bạn điều chỉnh được biện pháp Index nội dung trang web.

Các điều khoản tìm kiếm sẽ lưu trữ nội dung file robots.txt WordPress. Mặc dù nó vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Giả dụ bạn biến đổi tệp và muốn update tệp của bản thân nhanh hơn thì hãy áp dụng ngay chức năng Gửi của Trình kiểm soát tệp robots.txt.

Câu hỏi thường chạm mặt về robots.txt

Dưới đây là một số thắc mắc thường gặp, có thể là rất nhiều thắc mắc của chúng ta về robots.txt bây giờ:

Kích thước buổi tối đa của tệp tin robots.txt là bao nhiêu?

500 kilobyte (khoảng).

File robots.txt Wordpress nằm chỗ nào trên website?

Tại vị trí: domain.com/robots.txt.

Làm bí quyết nào để sửa đổi robots.txt WordPress?

Bạn rất có thể thực hiện nay theo cách bằng tay thủ công hoặc thực hiện một trong vô số nhiều plugin WordPress SEO như Yoast cho phép bạn sửa đổi robots.txt trường đoản cú WordPress backend.

Điều gì xẩy ra nếu Disallow vào ngôn từ Noindex vào robots.txt?

Google vẫn không lúc nào thấy lệnh Noindex vị nó chẳng thể Crawl dữ liệu trang.

Tôi cần sử dụng cùng một tệp robots.txt cho những trang web. Tôi có thể dùng một URL rất đầy đủ thay cho một đường dẫn kha khá được không?

Không, các lệnh vào tệp robots.txt (ngoại trừ mã Sitemap:) chỉ áp dụng cho những đường dẫn tương đối.

Làm bí quyết nào nhằm tôi hoàn toàn có thể tạm hoàn thành toàn bộ vận động thu thập dữ liệu trang web của mình?

Bạn rất có thể tạm kết thúc toàn bộ chuyển động thu thập dữ liệu bằng phương pháp trả về một mã công dụng HTTP 503 cho phần nhiều URL, bao hàm cả tệp robots.txt. Các bạn không nên biến hóa tệp robots.txt để chặn hoạt động thu thập dữ liệu.

Làm ráng nào để chặn toàn bộ các web Crawler?

Tất cả bạn phải làm là truy cập Settings > Reading và chọn ô ở kề bên tùy chọn tìm kiếm Engine Visibility.


*
Tick lựa chọn “Discourage tìm kiếm engines from indexing this site” để chặn toàn bộ các website crawler index site của bạn

Khi đã có được chọn, WordPress thêm dòng này vào tiêu đề của website của bạn:

meta name="robots" content="noindex,follow"WordPress cũng đổi khác file robots.txt của trang web của chúng ta và thêm hầu hết dòng này:

User-agent: *Disallow: /Những dòng yêu cầu các robot (các web crawler) ko index những trang của bạn. Mặc dù nhiên, nó hoàn toàn phụ thuộc vào vào việc những công nạm tìm kiếm gật đầu yêu mong này hay làm lơ nó.

Chặn trình thu thập, tra cứu kiếm thông tin của Google:

Để ngăn trình thu thập, kiếm tìm kiếm tin tức của Google (User-agent: Googlebot) ko thu thập ngẫu nhiên trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:

User-agent: GooglebotDisallow: /example-subfolderChặn trình thu thập thông tin của Bing:

Bạn hãy thực hiện cú pháp sau:

User-agent: BingbotDisallow: /example-subfolder/blocked-page.html

Robots.txt, Meta robot với X-robot khác nhau như nuốm nào?

Đầu tiên, robots.txt là một trong tệp văn bạn dạng trong khi Meta robot với X-robot là những Meta Directives. Ngoại trừ ra, tính năng của 3 loại Robot này cũng hoàn toàn khác nhau.

Meta Robot là các đoạn mã cung ứng hướng dẫn mang đến trình tích lũy thông tin về cách thu thập dữ liệu hoặc lập chỉ mục câu chữ trang web.


Nó được đặt vào phần của trang web và trông như thể như:

X-robot là một trong những phần của tiêu đề HTTP được giữ hộ từ máy chủ web. Không giống như thẻ meta robots, thẻ này không được để trong HTML của một trang (tức phần của trang web).


X-Robots được thực hiện để ngăn những công vắt tìm tìm lập chỉ mục các loại tệp cụ thể như hình hình ảnh hoặc PDF, ngay cả so với các tệp không hẳn HTML.

Bất kỳ lệnh nào cần sử dụng được trong thẻ meta robots cũng hoàn toàn có thể được chỉ định là 1 X-Robots.

Bằng cách cho phép bạn kiểm soát và điều hành cách những loại tệp cụ thể được lập chỉ mục, X-Robots cung ứng sự linh hoạt rộng thẻ Meta robots và tệp robots.txt.

Việc sản xuất file robots.txt sai khiến cho vấn đề Index cục bộ trang web hoặc thư mục. Trong lúc đó thì Meta robot cùng X-robot hoàn toàn có thể ra lệnh cho việc Index ở lever trang riêng rẽ lẻ.

Kết luận

Bây giờ cho lượt các bạn rồi đấy! các bạn đã biết file robots.txt là gì chưa? Đã khám nghiệm xem website của bản thân mình đã có file robots.txt tốt chưa. Sản xuất lập và sửa đổi file robots.txt Wordpress theo ý của người sử dụng nhằm hỗ trợ các nhỏ bot của chế độ tìm kiếm thu thập dữ liệu với index trang web của khách hàng nhanh chóng.

Nếu sau khoản thời gian đọc xong nội dung bài viết chi máu này mà chúng ta vẫn cảm thấy khó hiểu, bạn hoàn toàn có thể để ý đến đăng ký khóa đào tạo hay chương trìnhđào sinh sản SEOtại GTV nhé!

Chúc bạn thành công!

Đọc tiếp:

Bạn cảm thấy sợ hãi với lượng kiến thức SEO tới tấp trên mạng như hiện tại nay? Một khoá học SEO chuyên nghiệp có lộ trình rõ ràng, chuyên nghiệp hóa sẽ cùng chúng ta vượt qua cơn nhức đầu này!