Tìm hiểu về Robots Meta Directives và cách sử dụng hiệu quả

Thẻ meta robot là gì?
Rô bốt chỉ thị meta (đôi khi được gọi là thẻ meta meta của Wikipedia) là những đoạn mã cung cấp hướng dẫn cho trình thu thập thông tin về cách thu thập dữ liệu hoặc lập chỉ mục nội dung trang web. Trong khi các chỉ thị tệp robot.txt cung cấp cho bot các đề xuất về cách thu thập dữ liệu trang của trang web, các chỉ thị meta của robot cung cấp các hướng dẫn chắc chắn hơn về cách thu thập dữ liệu và lập chỉ mục nội dung của trang.

Có hai loại chỉ thị meta của robot: những loại là một phần của trang HTML (như meta robotstag) và các loại mà máy chủ web gửi dưới dạng tiêu đề HTTP (chẳng hạn như thẻ x-robot). Các tham số tương tự (ví dụ: hướng dẫn thu thập thông tin hoặc lập chỉ mục mà thẻ meta cung cấp, chẳng hạn như, no noexexex và Hồi nofollow tựa trong ví dụ trên) có thể được sử dụng với cả rô bốt meta và thẻ x-rô bốt; Điều khác biệt là làm thế nào các tham số đó được truyền đến các trình thu thập thông tin.

Chỉ thị meta cung cấp cho các trình thu thập thông tin hướng dẫn về cách thu thập thông tin và lập chỉ mục thông tin họ tìm thấy trên một trang web cụ thể. Nếu các lệnh này được phát hiện bởi các bot, các tham số của chúng sẽ đóng vai trò là các gợi ý mạnh mẽ cho hành vi lập chỉ mục của trình thu thập thông tin. Nhưng cũng như với các tệp robot.txt, các trình thu thập thông tin không phải tuân theo các chỉ thị meta của bạn, do đó, nó đặt cược an toàn rằng một số robot web độc hại sẽ bỏ qua các chỉ thị của bạn.

Dưới đây là các tham số mà trình thu thập công cụ tìm kiếm hiểu và tuân theo khi chúng được sử dụng trong các chỉ thị meta của robot. Các tham số không phân biệt chữ hoa chữ thường, nhưng xin lưu ý rằng có thể một số công cụ tìm kiếm chỉ có thể theo một tập hợp con của các tham số này hoặc có thể xử lý một số chỉ thị hơi khác nhau.

Các tham số kiểm soát chỉ mục:
Noindex: Yêu cầu một công cụ tìm kiếm không lập chỉ mục một trang.

Index: Báo cho công cụ tìm kiếm lập chỉ mục một trang. Lưu ý rằng bạn không cần phải thêm thẻ meta này; Nó cài đặt mặc định.

Theo dõi: Ngay cả khi trang không được lập chỉ mục, trình thu thập thông tin nên theo tất cả các liên kết trên một trang và chuyển vốn chủ sở hữu cho các trang được liên kết.

Nofollow: Yêu cầu trình thu thập thông tin không theo bất kỳ liên kết nào trên trang hoặc chuyển qua bất kỳ vốn chủ sở hữu liên kết nào.

Noimageindex: Yêu cầu trình thu thập thông tin không lập chỉ mục bất kỳ hình ảnh nào trên một trang.

Không có: Tương đương với việc sử dụng đồng thời cả hai thẻ noindex và nofollow.

Không lưu trữ: Các công cụ tìm kiếm không được hiển thị một liên kết được lưu trong bộ nhớ cache đến trang này trên SERP.

Nocache: Tương tự như vô chính phủ, nhưng chỉ được sử dụng bởi Internet Explorer và Firefox.

Nosnippet: Yêu cầu một công cụ tìm kiếm không hiển thị một đoạn của trang này (tức là mô tả meta) của trang này trên SERP.

Noodyp / noydir [OBSOLETE]: Ngăn chặn các công cụ tìm kiếm sử dụng mô tả DMOZ của trang như là đoạn trích SERP cho trang này. Tuy nhiên, DMOZ đã nghỉ hưu vào đầu năm 2017, khiến thẻ này trở nên lỗi thời.

Unav Available_after: Công cụ tìm kiếm sẽ không còn lập chỉ mục trang này sau một ngày cụ thể.

Các loại chỉ thị meta robot
Có hai loại chỉ thị meta robot chính: thẻ meta robot và thẻ x-robot-tag. Bất kỳ tham số nào có thể được sử dụng trong thẻ meta robot cũng có thể được chỉ định trong thẻ x-robot.

Chúng tôi sẽ nói về cả hai lệnh meta robot và x-robot bên dưới.

Thẻ meta robot
Thẻ meta rô bốt, thường được gọi là rô bốt meta, hay còn gọi là thẻ rô bốt, một phần của một trang web mã HTML HTML và xuất hiện dưới dạng các phần tử mã trong phần trang web <head>:

Mẫu mã:
<meta name = Wikipedia robot Nội dung = = [PARAMETER] phạm lỗi>
Mặc dù thẻ <meta name = Trò chơi rô bốt chung Nội dung = [[PARAMETER]]> là tiêu chuẩn, bạn cũng có thể cung cấp chỉ thị cho các trình thu thập cụ thể bằng cách thay thế các rô-bốt rô-bốt bằng tên của một tác nhân người dùng cụ thể. Ví dụ: để nhắm mục tiêu một lệnh cụ thể tới Googlebot, bạn Wad sử dụng mã sau:

<meta name = nội dung googlebot nội dung = xông [TRỰC TIẾP] Bạn muốn sử dụng nhiều hơn một chỉ thị trên một trang? Chừng nào họ còn nhắm đến cùng một robot Robot (tác nhân người dùng), nhiều lệnh có thể được bao gồm trong một lệnh meta – chỉ cần tách chúng bằng dấu phẩy. Dưới đây là một ví dụ:

<meta name = nội dung rô-bốt Nội dung = Thời trang noimageindex, Thời gian nofollow, Lần thứ nosnippet Trực>
Thẻ này sẽ yêu cầu robot không lập chỉ mục bất kỳ hình ảnh nào trên một trang, theo bất kỳ liên kết nào hoặc hiển thị một đoạn của trang khi nó xuất hiện trên SERP.

Nếu bạn sử dụng các chỉ thị thẻ meta robot khác nhau cho các tác nhân người dùng tìm kiếm khác nhau, bạn sẽ cần sử dụng các thẻ riêng biệt cho mỗi bot.

Thẻ X-robot
Mặc dù thẻ meta robot cho phép bạn kiểm soát hành vi lập chỉ mục ở cấp độ trang, thẻ x-robot có thể được bao gồm như một phần của tiêu đề HTTP để kiểm soát toàn bộ việc lập chỉ mục của một trang, cũng như các yếu tố rất cụ thể của trang .

Mặc dù bạn có thể sử dụng thẻ x-robot để thực thi tất cả các chỉ thị lập chỉ mục giống như rô bốt meta, nhưng chỉ thị thẻ x-rô bốt cung cấp tính linh hoạt và chức năng đáng kể hơn mà thẻ meta robot không có. Cụ thể, các robot x cho phép sử dụng các biểu thức thông thường, thực hiện các lệnh thu thập thông tin trên các tệp không phải HTML và áp dụng các tham số ở cấp độ toàn cầu.
Để sử dụng thẻ x-rô bốt, bạn sẽ cần phải có quyền truy cập vào trang web tiêu đề của bạn .php, .htaccess hoặc tệp truy cập máy chủ. Từ đó, thêm cấu hình máy chủ cụ thể của bạn Đánh dấu thẻ x-robot, bao gồm mọi tham số. Bài viết này cung cấp một số ví dụ tuyệt vời về cách đánh dấu thẻ x-robot trông như thế nào nếu bạn sử dụng bất kỳ cấu hình nào trong ba cấu hình này.

Dưới đây là một vài trường hợp sử dụng cho lý do tại sao bạn có thể sử dụng thẻ x-robot:

Kiểm soát việc lập chỉ mục nội dung không được viết bằng HTML (như flash hoặc video)

Chặn lập chỉ mục của một yếu tố cụ thể của một trang (như hình ảnh hoặc video), nhưng không phải của toàn bộ trang

Kiểm soát lập chỉ mục nếu bạn không có quyền truy cập vào một trang HTML HTML (cụ thể là vào phần <head>) hoặc nếu trang web của bạn sử dụng tiêu đề toàn cầu không thể thay đổi

Thêm quy tắc vào việc có nên lập chỉ mục một trang hay không (ví dụ: Nếu người dùng đã nhận xét hơn 20 lần, hãy lập chỉ mục trang hồ sơ của họ)

Thực hành SEO tốt nhất với các chỉ thị meta robot
Tất cả các chỉ thị meta (robot hoặc cách khác) được phát hiện khi URL được thu thập thông tin. Điều này có nghĩa là nếu tệp robot.txt không cho phép thu thập dữ liệu URL, mọi chỉ thị meta trên một trang (trong tiêu đề HTML hoặc HTTP) sẽ không được xem và sẽ bị bỏ qua một cách hiệu quả.

Trong hầu hết các trường hợp, sử dụng thẻ meta robot có tham số “noindex, follow” nên được sử dụng như một cách để hạn chế thu thập dữ liệu hoặc lập chỉ mục thay vì sử dụng tệp robot.txt không cho phép.

Điều quan trọng cần lưu ý là các trình thu thập dữ liệu độc hại có khả năng bỏ qua hoàn toàn các chỉ thị meta và do đó, giao thức này không tạo ra một cơ chế bảo mật tốt. Nếu bạn có thông tin riêng tư mà bạn không muốn tìm kiếm công khai, hãy chọn một phương pháp an toàn hơn, chẳng hạn như bảo vệ mật khẩu, để ngăn khách truy cập xem các trang bí mật.

Bạn không cần phải sử dụng cả meta meta và thẻ x-robot trên cùng một trang – làm như vậy sẽ là dư thừa.