Duplicate Content là gì? Sự ảnh hưởng của vấn đề trùng lặp nội dung

Nội dung trùng lặp là gì?
Nội dung trùng lặp là nội dung xuất hiện trên Internet ở nhiều nơi. Đó là một địa điểm mà Tử vi được định nghĩa là một vị trí có địa chỉ trang web (URL) duy nhất – vì vậy, nếu cùng một nội dung xuất hiện tại nhiều hơn một địa chỉ web, thì bạn đã có nội dung trùng lặp.
Mặc dù về mặt kỹ thuật không phải là một hình phạt, nội dung trùng lặp đôi khi vẫn có thể ảnh hưởng đến thứ hạng của công cụ tìm kiếm. Khi có nhiều phần, như Google gọi nó, nội dung “tương tự đáng chú ý” ở nhiều hơn một địa điểm trên Internet, công cụ tìm kiếm có thể khó quyết định phiên bản nào phù hợp hơn với truy vấn tìm kiếm nhất định.
Tại sao nội dung trùng lặp lại quan trọng?
Đối với công cụ tìm kiếm
Nội dung trùng lặp có thể trình bày ba vấn đề chính cho các công cụ tìm kiếm:
Họ không biết (các) phiên bản nào sẽ bao gồm / loại trừ khỏi các chỉ số của họ.
Họ không biết nên hướng các số liệu liên kết (tin cậy, quyền hạn, văn bản neo, vốn chủ sở hữu liên kết, v.v.) vào một trang hay giữ nó cách biệt giữa nhiều phiên bản.

Họ không biết nên xếp hạng phiên bản nào cho kết quả truy vấn.

Dành cho chủ sở hữu trang web
Khi có nội dung trùng lặp, chủ sở hữu trang web có thể bị xếp hạng và mất lưu lượng truy cập. Những mất mát này thường xuất phát từ hai vấn đề chính:
Để cung cấp trải nghiệm tìm kiếm tốt nhất, các công cụ tìm kiếm sẽ hiếm khi hiển thị nhiều phiên bản của cùng một nội dung và do đó buộc phải chọn phiên bản nào có khả năng là kết quả tốt nhất. Điều này làm loãng khả năng hiển thị của từng bản sao.
Vốn chủ sở hữu liên kết có thể được pha loãng thêm bởi vì các trang web khác cũng phải lựa chọn giữa các bản sao. thay vì tất cả các liên kết trong nước trỏ đến một phần nội dung, chúng liên kết đến nhiều phần, lan truyền vốn chủ sở hữu liên kết giữa các bản sao. Bởi vì các liên kết trong là một yếu tố xếp hạng, điều này sau đó có thể ảnh hưởng đến khả năng hiển thị tìm kiếm của một phần nội dung.
Kết quả ròng? Một phần nội dung không đạt được khả năng hiển thị tìm kiếm nếu không nó sẽ.

Làm thế nào để các vấn đề nội dung trùng lặp xảy ra?
Trong phần lớn các trường hợp, chủ sở hữu trang web không cố ý tạo nội dung trùng lặp. Nhưng, điều đó không có nghĩa là nó không ở ngoài đó. Trong thực tế theo một số ước tính, có tới 29% web thực sự là nội dung trùng lặp!

Chúng ta hãy xem một số cách phổ biến nhất mà nội dung trùng lặp được tạo ra một cách vô tình:

1. Các biến thể URL
Các tham số URL, chẳng hạn như theo dõi nhấp chuột và một số mã phân tích, có thể gây ra sự cố trùng lặp nội dung. Đây có thể là một vấn đề gây ra không chỉ bởi chính các tham số mà còn cả thứ tự xuất hiện các tham số đó trong chính URL.

Ví dụ:

Tương tự, ID phiên là một trình tạo nội dung trùng lặp phổ biến. Điều này xảy ra khi mỗi người dùng truy cập một trang web được gán một ID phiên khác nhau được lưu trữ trong URL.

Các phiên bản nội dung thân thiện với máy in cũng có thể gây ra sự cố trùng lặp nội dung khi nhiều phiên bản của trang được lập chỉ mục.

Một bài học ở đây là khi có thể, thường có ích khi tránh thêm các tham số URL hoặc các phiên bản thay thế của URL (thông tin có chứa thường có thể được chuyển qua tập lệnh).

2. HTTP so với HTTPS hoặc WWW so với các trang không WWW
Nếu trang web của bạn có các phiên bản riêng biệt tại “www.site.com” và “site.com” (có và không có tiền tố “www”) và cùng một nội dung tồn tại ở cả hai phiên bản, bạn đã tạo các bản sao của từng phiên bản một cách hiệu quả trang. Điều tương tự cũng áp dụng cho các trang web duy trì các phiên bản ở cả http: // và https: //. Nếu cả hai phiên bản của một trang đều trực tiếp và hiển thị cho các công cụ tìm kiếm, bạn có thể gặp phải sự cố trùng lặp nội dung.

3. Nội dung bị loại bỏ hoặc sao chép
Nội dung không chỉ bao gồm các bài đăng trên blog hoặc nội dung biên tập, mà còn các trang thông tin sản phẩm. Scrapers tái xuất bản nội dung blog của bạn trên các trang web của riêng họ có thể là một nguồn nội dung trùng lặp quen thuộc hơn, nhưng cũng có một vấn đề chung cho các trang web thương mại điện tử: thông tin sản phẩm. Nếu nhiều trang web khác nhau bán cùng một mặt hàng và tất cả chúng đều sử dụng mô tả của nhà sản xuất về các mặt hàng đó, nội dung giống hệt nhau sẽ xuất hiện ở nhiều địa điểm trên web.

Cách khắc phục sự cố trùng lặp nội dung
Việc sửa các vấn đề nội dung trùng lặp đều xuất phát từ cùng một ý tưởng trung tâm: chỉ định phần nào trùng lặp là “chính xác”.

Bất cứ khi nào nội dung trên một trang web có thể được tìm thấy tại nhiều URL, nó sẽ được hợp quy hóa cho các công cụ tìm kiếm. Chúng ta hãy đi qua ba cách chính để làm điều này: Sử dụng chuyển hướng 301 đến đúng URL, thuộc tính rel = canonical hoặc sử dụng công cụ xử lý tham số trong Google Search Console.
Chuyển hướng 301
Trong nhiều trường hợp, cách tốt nhất để chống lại nội dung trùng lặp là thiết lập chuyển hướng 301 từ trang “trùng lặp” sang trang nội dung gốc.

Khi nhiều trang có khả năng xếp hạng tốt được kết hợp thành một trang duy nhất, chúng không chỉ ngừng cạnh tranh với nhau; họ cũng tạo ra một sự liên quan mạnh mẽ hơn và tín hiệu phổ biến nói chung. Điều này sẽ tác động tích cực đến khả năng xếp hạng tốt của trang “chính xác”.

Rel = “canonical”
Một tùy chọn khác để xử lý nội dung trùng lặp là sử dụng thuộc tính rel = canonical. Điều này cho các công cụ tìm kiếm biết rằng một trang nhất định phải được xử lý như thể đó là bản sao của một URL được chỉ định và tất cả các liên kết, số liệu nội dung và “sức mạnh xếp hạng” mà các công cụ tìm kiếm áp dụng cho trang này thực sự phải được ghi có vào chỉ định URL.

Thuộc tính rel = “canonical” là một phần của phần đầu HTML của trang web và trông như thế này:

Định dạng chung:

<đầu>
… [mã khác có thể có trong đầu HTML của tài liệu của bạn] …
<link href = “URL CỦA TRANG ORIGINAL” rel = “canonical” />
… [mã khác có thể có trong đầu HTML của tài liệu của bạn] …
</ đầu>
Thuộc tính rel = canonical phải được thêm vào phần đầu HTML của mỗi phiên bản trùng lặp của trang, với phần “URL CỦA TRANG GỐC” ở trên được thay thế bằng liên kết đến trang gốc (chính tắc). (Hãy chắc chắn rằng bạn giữ dấu ngoặc kép.) Thuộc tính vượt qua cùng một lượng vốn chủ sở hữu liên kết (sức mạnh xếp hạng) như chuyển hướng 301 và, vì nó được triển khai ở cấp độ trang (thay vì máy chủ), thường mất ít thời gian phát triển hơn triển khai thực hiện.

Dưới đây là một ví dụ về hình dạng của một thuộc tính chính tắc trong hành động:
Ở đây, chúng ta có thể thấy BuzzFeed đang sử dụng các thuộc tính rel = canonical để phù hợp với việc sử dụng các tham số URL của họ (trong trường hợp này, nhấp theo dõi). Mặc dù trang này có thể truy cập bằng hai URL, thuộc tính rel = canonical đảm bảo rằng tất cả các số liệu về nội dung và nội dung liên kết được trao cho trang gốc (/ không-ai-làm-điều này nữa).

Robots Noindex
Một thẻ meta có thể đặc biệt hữu ích trong việc xử lý nội dung trùng lặp là các robot meta, khi được sử dụng với các giá trị “noindex, follow”. Thường được gọi là Meta Noindex, Theo dõi và được biết đến về mặt kỹ thuật là content = Kỳ noindex, theo dõi, thẻ meta robot meta này có thể được thêm vào phần đầu HTML của mỗi trang riêng lẻ cần được loại trừ khỏi chỉ mục của công cụ tìm kiếm.

Định dạng chung:

<đầu>
… [mã khác có thể có trong đầu HTML của tài liệu của bạn] …
<meta name = “robot” content = “noindex, theo dõi”>
… [mã khác có thể có trong đầu HTML của tài liệu của bạn] …
</ đầu>
Thẻ meta robot cho phép các công cụ tìm kiếm thu thập dữ liệu các liên kết trên một trang nhưng giữ cho chúng không bao gồm các liên kết đó trong chỉ mục của chúng. Điều quan trọng là trang trùng lặp vẫn có thể được thu thập thông tin, mặc dù bạn đang bảo Google không lập chỉ mục cho nó, bởi vì Google cảnh báo rõ ràng về việc hạn chế quyền truy cập thu thập dữ liệu vào nội dung trùng lặp trên trang web của bạn. (Các công cụ tìm kiếm muốn có thể thấy mọi thứ trong trường hợp bạn đã mắc lỗi trong mã của mình. Nó cho phép họ thực hiện một “cuộc gọi phán xét” có khả năng tự động hóa trong các tình huống mơ hồ.)

Sử dụng robots meta là một giải pháp đặc biệt tốt cho các vấn đề trùng lặp nội dung liên quan đến phân trang.

Xử lý tham số và tên miền ưa thích trong Google Search Console
Google Search Console cho phép bạn đặt tên miền ưa thích trên trang web của mình (ví dụ: https://ltgseo.com/ thay vì https://www.ltgseo.com/) và chỉ định liệu Googlebot có nên thu thập thông số URL khác nhau hay không (xử lý tham số).