Duplicate Content là gì? Cách kiểm tra trùng lặp nội dung

Có lẽ bạn đã bắt gặp thuật ngữ Duplicate Content hay còn gọi là trùng lặp nội dung khá nhiều, nhưng nó là gì? Nội dung trùng lặp là nội dung nằm ở một số vị trí – tức là URL. Nó có thể gây tổn hại cho thứ hạng của bạn và nhiều người nói rằng số lượng lớn của nó thậm chí có thể dẫn đến một hình phạt của Google. Điều đó không đúng, mặc dù. Không có hình phạt nội dung trùng lặp, nhưng có vô số nội dung trùng lặp hoặc sao chép có thể khiến Google ảnh hưởng tiêu cực đến thứ hạng của bạn.

Nội dung trùng lặp rất đáng sợ trong thế giới SEO. Nếu nội dung của bạn tồn tại trên nhiều trang trên trang web của bạn hoặc các trang web khác, Google có thể bị nhầm lẫn và không biết nên xếp hạng nào trước. Bạn sẽ muốn ngăn chặn nội dung trùng lặp càng nhiều càng tốt. Vì vậy, những gì bạn có thể làm, chính mình? Ở đây, tôi sẽ giải thích cách thực hiện kiểm tra nội dung trùng lặp, đôi khi bạn nên thực hiện để tìm nội dung được sao chép. Thêm vào đó, một số mẹo để tránh trùng lặp nội dung ở nơi đầu tiên. 

Băt đâu với dịch vụ seo LTGSEO nào!

Duplicate Content là gì?

Dulicate Content (Nội dung trùng lặp)

Dulicate Content (Nội dung trùng lặp) là tất cả nội dung có sẵn trên nhiều địa điểm trên hoặc ngoài trang web của bạn. Nó thường sống trên một URL khác nhau và đôi khi ngay cả trên một tên miền khác. Hầu hết các nội dung trùng lặp xảy ra vô tình hoặc là kết quả của việc thực hiện kỹ thuật phụ. Chẳng hạn, trang web của bạn có thể có sẵn trên cả www và không www hoặc HTTP và HTTPS – hoặc cả hai cùng một lúc, thật kinh khủng! Hoặc có thể CMS của bạn sử dụng các tham số URL động quá mức gây nhầm lẫn cho các công cụ tìm kiếm. Ngay cả các trang AMP của bạn cũng có thể được tính là nội dung trùng lặp nếu không được liên kết chính xác. Nội dung trùng lặp ở khắp mọi nơi.

Định nghĩa về nội dung trùng lặp của Google như sau:

Nội dung trùng lặp thường đề cập đến các khối nội dung đáng kể trong hoặc trên các miền hoàn toàn khớp với nội dung khác hoặc tương tự nhau. Hầu hết, đây không phải là lừa đảo trong nguồn gốc.

Đó là phần cuối cùng rất quan trọng. Nếu bạn cạo, sao chép và quay nội dung hiện có – Google gọi nội dung được sao chép này – với mục đích đánh lừa công cụ tìm kiếm để có thứ hạng cao hơn, bạn sẽ gặp nguy hiểm.

Google cho biết loại ý định độc hại này có thể kích hoạt một hành động:

Nội dung trùng lặp trên một trang web không phải là căn cứ để hành động trên trang web đó trừ khi có vẻ như mục đích của nội dung trùng lặp là lừa đảo và thao túng kết quả của công cụ tìm kiếm

Chúng tôi có một số mẹo hay để khám phá nội dung trùng lặp trên trang web của bạn trong phần kiểm tra nội dung trùng lặp DIY của anh ấy và phải làm gì nếu ai đó sao chép nội dung của bạn. Tài liệu của Google cũng là một mỏ vàng để làm việc với nội dung trùng lặp.

Nội dung trùng lặp là nội dung xuất hiện trên Internet ở nhiều nơi. Đó là một địa điểm mà Tử vi được định nghĩa là một vị trí có địa chỉ trang web duy nhất ( URL ) – vì vậy, nếu cùng một nội dung xuất hiện tại nhiều địa chỉ web, bạn đã có nội dung trùng lặp.

Mặc dù về mặt kỹ thuật không phải là một hình phạt , nội dung trùng lặp đôi khi vẫn có thể ảnh hưởng đến thứ hạng của công cụ tìm kiếm. Khi có nhiều phần, như Google gọi nó , nội dung “tương tự đáng chú ý” ở nhiều hơn một địa điểm trên Internet, công cụ tìm kiếm có thể khó quyết định phiên bản nào phù hợp hơn với truy vấn tìm kiếm nhất định.

Tại sao nội dung trùng lặp lại quan trọng?

Đối với công cụ tìm kiếm

Nội dung trùng lặp có thể trình bày ba vấn đề chính cho các công cụ tìm kiếm:

  1. Họ không biết (các) phiên bản nào sẽ bao gồm / loại trừ khỏi các chỉ số của họ.
  2. Họ không biết có nên chỉ đạo các số liệu liên kết (tin cậy, thẩm quyền, anchor text ,liên kết vốn , v.v.) đến một trang hoặc giữ nó tách biệt giữa nhiều phiên bản.
  3. Họ không biết nên xếp hạng phiên bản nào cho kết quả truy vấn.

Dành cho chủ sở hữu trang web

Khi có nội dung trùng lặp, chủ sở hữu trang web có thể bị xếp hạng và mất lưu lượng truy cập. Những mất mát này thường xuất phát từ hai vấn đề chính:

  1. Để cung cấp trải nghiệm tìm kiếm tốt nhất, các công cụ tìm kiếm sẽ hiếm khi hiển thị nhiều phiên bản của cùng một nội dung và do đó buộc phải chọn phiên bản nào có khả năng là kết quả tốt nhất. Điều này làm loãng khả năng hiển thị của từng bản sao.
  2. Vốn chủ sở hữu liên kết có thể được pha loãng thêm vì các trang web khác cũng phải chọn giữa các bản sao. thay vì tất cả các liên kết trong nước trỏ đến một phần nội dung, chúng liên kết đến nhiều phần, lan truyền vốn chủ sở hữu liên kết giữa các bản sao. Bởi vì các liên kết trong là một yếu tố xếp hạng , điều này sau đó có thể ảnh hưởng đến khả năng hiển thị tìm kiếm của một phần nội dung.

Kết quả ròng? Một phần nội dung không đạt được khả năng hiển thị tìm kiếm nếu không nó sẽ.

Làm thế nào để các vấn đề nội dung trùng lặp xảy ra?

Trong phần lớn các trường hợp, chủ sở hữu trang web không cố ý tạo nội dung trùng lặp. Nhưng, điều đó không có nghĩa là nó không ở ngoài đó. Trong thực tế theo một số ước tính, có tới 29% web thực sự là nội dung trùng lặp!

Chúng ta hãy xem một số cách phổ biến nhất mà nội dung trùng lặp được tạo ra một cách vô tình:

Các biến thể URL

Các tham số URL, chẳng hạn như theo dõi nhấp chuột và một số mã phân tích, có thể gây ra sự cố trùng lặp nội dung. Đây có thể là một vấn đề gây ra không chỉ bởi chính các tham số mà còn cả thứ tự xuất hiện các tham số đó trong chính URL.

Ví dụ:

  • www.widgets.com/blue-widgets?c … là một bản sao của www.widgets.com/blue-widgets
  • www.widgets.com/blue-widgets?c … & cat = 3 là bản sao của www.widgets.com/blue-widgets?cat=3&color=blue

Tương tự, ID phiên là một trình tạo nội dung trùng lặp phổ biến. Điều này xảy ra khi mỗi người dùng truy cập một trang web được gán một ID phiên khác nhau được lưu trữ trong URL.

Các phiên bản nội dung thân thiện với máy in cũng có thể gây ra sự cố trùng lặp nội dung khi nhiều phiên bản của trang được lập chỉ mục.

Một bài học ở đây là khi có thể, thường có ích khi tránh thêm các tham số URL hoặc các phiên bản thay thế của URL (thông tin có chứa thường có thể được chuyển qua tập lệnh).

HTTP so với HTTPS hoặc WWW so với các trang không WWW

Nếu trang web của bạn có các phiên bản riêng biệt tại “www.site.com” và “site.com” (có và không có tiền tố “www”) và cùng một nội dung tồn tại ở cả hai phiên bản, bạn đã tạo các bản sao của từng phiên bản một cách hiệu quả trang. Điều tương tự cũng áp dụng cho các trang web duy trì các phiên bản ở cả http: // và https: //. Nếu cả hai phiên bản của một trang đều trực tiếp và hiển thị cho các công cụ tìm kiếm, bạn có thể gặp phải sự cố trùng lặp nội dung.

Nội dung bị loại bỏ hoặc sao chép

Nội dung không chỉ bao gồm các bài đăng trên blog hoặc nội dung biên tập mà còn bao gồm các trang thông tin sản phẩm. Scrapers tái xuất bản nội dung blog của bạn trên các trang web của riêng họ có thể là một nguồn nội dung trùng lặp quen thuộc hơn, nhưng cũng có một vấn đề chung cho các trang web thương mại điện tử: thông tin sản phẩm. Nếu nhiều trang web khác nhau bán cùng một mặt hàng và tất cả chúng đều sử dụng mô tả của nhà sản xuất về các mặt hàng đó, nội dung giống hệt nhau sẽ xuất hiện ở nhiều địa điểm trên web.

Cách khắc phục sự cố trùng lặp nội dung

Việc khắc phục các vấn đề về nội dung trùng lặp đều xuất phát từ cùng một ý tưởng trung tâm: chỉ định mục trùng lặp nào là “chính xác”.

Bất cứ khi nào nội dung trên một trang web có thể được tìm thấy tại nhiều URL, nó sẽ được hợp quy hóa cho các công cụ tìm kiếm. Chúng ta hãy đi qua ba cách chính để làm điều này: Sử dụng chuyển hướng 301 đến đúng URL, thuộc tính rel = canonical hoặc sử dụng công cụ xử lý tham số trong Google Search Console.

Chuyển hướng 301

Trong nhiều trường hợp, cách tốt nhất để chống lại nội dung trùng lặp là thiết lập chuyển hướng 301 từ trang “trùng lặp” sang trang nội dung gốc.

Khi nhiều trang có khả năng xếp hạng tốt được kết hợp thành một trang duy nhất, chúng không chỉ ngừng cạnh tranh với nhau; họ cũng tạo ra một sự liên quan mạnh mẽ hơn và tín hiệu phổ biến nói chung. Điều này sẽ tác động tích cực đến khả năng xếp hạng tốt của trang “chính xác”.

Rel=”canonical”

Một tùy chọn khác để xử lý nội dung trùng lặp là sử dụng thuộc tính rel = canonical . Điều này cho các công cụ tìm kiếm biết rằng một trang nhất định phải được xử lý như thể đó là bản sao của một URL được chỉ định và tất cả các liên kết, số liệu nội dung và “sức mạnh xếp hạng” mà các công cụ tìm kiếm áp dụng cho trang này thực sự phải được ghi có vào chỉ định URL.

Thuộc tính rel = “canonical” là một phần của phần đầu HTML của trang web và trông như thế này:

Định dạng chung:

<đầu>
... [mã khác có thể có trong đầu HTML của tài liệu của bạn] ...
<link href = "URL CỦA TRANG ORIGINAL" rel = "canonical" />
... [mã khác có thể có trong đầu HTML của tài liệu của bạn] ...
</ đầu>

Thuộc tính rel = canonical nên được thêm vào phần đầu HTML của mỗi phiên bản trùng lặp của trang, với phần “URL CỦA TRANG GỐC” ở trên được thay thế bằng liên kết đến trang gốc (chính tắc). (Hãy chắc chắn rằng bạn giữ dấu ngoặc kép.) Thuộc tính vượt qua cùng một lượng vốn chủ sở hữu liên kết (sức mạnh xếp hạng) như chuyển hướng 301 và, vì nó được triển khai ở cấp độ trang (thay vì máy chủ), thường mất ít thời gian phát triển hơn triển khai thực hiện.

Dưới đây là một ví dụ về hình dạng của một thuộc tính chính tắc trong hành động:

Tại đây, chúng ta có thể thấy BuzzFeed đang sử dụng các thuộc tính rel = canonical để phù hợp với việc sử dụng các tham số URL của họ (trong trường hợp này, nhấp theo dõi). Mặc dù trang này có thể truy cập được bằng hai URL, nhưng thuộc tính rel = canonical đảm bảo rằng tất cả các số liệu về nội dung và vốn chủ sở hữu liên kết được trao cho trang gốc (/ không-ai-làm-điều này nữa).

Meta Robots Noindex

Một thẻ meta có thể đặc biệt hữu ích trong việc xử lý nội dung trùng lặp là các robot meta , khi được sử dụng với các giá trị “noindex, follow”. Thường được gọi là Meta Noindex, Theo dõi và được biết đến về mặt kỹ thuật là content = Kỳ noindex, theo dõi, thẻ meta robot meta này có thể được thêm vào phần đầu HTML của mỗi trang riêng lẻ cần được loại trừ khỏi chỉ mục của công cụ tìm kiếm.

Định dạng chung:

<đầu>
... [mã khác có thể có trong đầu HTML của tài liệu của bạn] ...
<meta name = "robot" content = "noindex, theo dõi">
... [mã khác có thể có trong đầu HTML của tài liệu của bạn] ...
</ đầu>

Thẻ meta robot cho phép các công cụ tìm kiếm thu thập dữ liệu các liên kết trên một trang nhưng giữ cho chúng không bao gồm các liên kết đó trong chỉ mục của chúng. Điều quan trọng là trang trùng lặp vẫn có thể được thu thập thông tin, mặc dù bạn đang bảo Google không lập chỉ mục cho nó, bởi vì Google cảnh báo rõ ràng về việc hạn chế quyền truy cập thu thập dữ liệu vào nội dung trùng lặp trên trang web của bạn. (Các công cụ tìm kiếm muốn có thể thấy mọi thứ trong trường hợp bạn đã mắc lỗi trong mã của mình. Nó cho phép họ thực hiện một “cuộc gọi phán xét” [có khả năng tự động] trong các tình huống mơ hồ.)

Sử dụng robot meta là một giải pháp đặc biệt tốt cho các vấn đề trùng lặp nội dung liên quan đến phân trang.

Xử lý tham số và tên miền ưa thích trong Google Search Console

Google Search Console cho phép bạn đặt tên miền ưa thích trên trang web của mình (ví dụ: http://yoursite.com thay vì http://www.yoursite.com) và chỉ định liệu Googlebot có nên thu thập thông số URL khác nhau hay không (xử lý tham số).

Tùy thuộc vào cấu trúc URL của bạn và nguyên nhân của các vấn đề nội dung trùng lặp của bạn, thiết lập xử lý tham số hoặc tên miền ưa thích của bạn (hoặc cả hai!) Có thể cung cấp giải pháp.

Hạn chế chính của việc sử dụng xử lý tham số làm phương pháp chính của bạn để xử lý nội dung trùng lặp là những thay đổi bạn thực hiện chỉ hoạt động cho Google. Bất kỳ quy tắc nào được áp dụng bằng Google Search Console sẽ không ảnh hưởng đến cách Bing hoặc bất kỳ trình thu thập thông tin nào của công cụ tìm kiếm khác diễn giải trang web của bạn; bạn sẽ cần sử dụng các công cụ quản trị trang web cho các công cụ tìm kiếm khác ngoài việc điều chỉnh cài đặt trong Search Console.

Phương pháp bổ sung để xử lý nội dung trùng lặp

  1. Duy trì tính nhất quán khi liên kết nội bộ trên toàn bộ trang web. Ví dụ: nếu quản trị viên web xác định rằng phiên bản chính tắc của tên miền là www.example.com/, thì tất cả các liên kết nội bộ sẽ truy cập http: // www. example.co … thay vì http: // example.com/pa … (chú ý sự vắng mặt của www).
  2. Khi cung cấp nội dung, hãy đảm bảo trang web cung cấp thêm một liên kết trở lại nội dung ban đầu và không phải là một biến thể trên URL.
  3. Để thêm một biện pháp bảo vệ bổ sung chống lại những kẻ phá hoại nội dung đánh cắp tín dụng SEO cho nội dung của bạn, bạn nên thêm một liên kết rel = canonical tự giới thiệu vào các trang hiện có của mình. Đây là một thuộc tính kinh điển trỏ đến URL mà nó đã có, điểm quan trọng là cản trở nỗ lực của một số người dọn dẹp.

Mặc dù không phải tất cả các nhà phế liệu sẽ chuyển qua mã HTML đầy đủ của tài liệu nguồn của họ, một số sẽ. Đối với những người làm như vậy, thẻ rel = canonical tự tham chiếu sẽ đảm bảo phiên bản trang web của bạn được công nhận là phần nội dung “gốc”.

Nội dung trùng lặp so với nội dung được sao chép so với nội dung mỏng

Chủ đề của nội dung trùng lặp gây nhầm lẫn cho rất nhiều người. Đối với Google, hầu hết các nội dung trùng lặp đều có nguồn gốc kỹ thuật, nhưng nó cũng sẽ xem xét chính nội dung đó. Tôi có hai URL cho cùng một bài viết, tôi nên chọn URL nào? Trong khi hầu hết những người bình thường có thể sẽ nghĩ về những phần nội dung tương tự xuất hiện ở nơi khác trên một trang web. Tôi đã sử dụng đoạn văn bản này ở một số nơi khác, có tệ không? Đây là tất cả nội dung trùng lặp, nhưng để xác định thứ hạng, công cụ tìm kiếm phân biệt giữa nội dung trùng lặp, nội dung sao chép và nội dung mỏng.

Nội dung trùng lặp của bạn có thể phân loại là nội dung được sao chép nếu bạn sử dụng một văn bản hiện có và nhanh chóng thử lại nó để sử dụng lại trên trang web của bạn. Không thành vấn đề nếu bạn cho nó một chút quay hoặc đặt một vài từ khóa, hành vi này không được chấp nhận. Ném vào một vài trang nội dung mỏng – những trang có ít hoặc không có nội dung chất lượng – và bạn đang ở trong lãnh thổ nguy hiểm. Chất lượng trang web là một vấn đề và những chiến thuật này có thể mang lại tác hại nghiêm trọng cho trang web của bạn. Nhớ Panda không?

Đừng chặn nội dung trùng lặp trên trang web của bạn

Google khá thích hợp trong việc khám phá và xử lý nội dung trùng lặp. Công cụ tìm kiếm đủ thông minh để tìm ra phải làm gì với hầu hết các nội dung trùng lặp mà nó tìm thấy. Nếu nó tìm thấy nhiều phiên bản của một trang, nó sẽ xếp chúng thành phiên bản mà nó tìm thấy tốt nhất – trong hầu hết các trường hợp, đây sẽ là bài viết / trang gốc. Tuy nhiên, những gì nó cần là truy cập đầy đủ vào các URL này. Nếu bạn chặn Googlebot trong tệp robots.txt của bạn để thu thập các URL này, nó không thể tự tìm ra những điều này và bạn sẽ gặp rủi ro khi Google coi các trang này là các trường hợp riêng biệt. Dưới đây là một số điều bạn nên làm:

  • Cho phép robot thu thập dữ liệu các URL này
  • Đánh dấu nội dung là trùng lặp bằng cách sử dụng rel = canonical (đọc thêm về điều này bên dưới)
  • Sử dụng công cụ Xử lý tham số URL của Google để xác định cách xử lý các tham số
  • Sử dụng chuyển hướng 301 để gửi người dùng và trình thu thập thông tin đến URL chuẩn

Sử dụng rel = canonical!

Một trong những công cụ thiết yếu trong bộ công cụ chiến đấu nội dung trùng lặp của bạn là rel = che canon canon. Bạn có thể sử dụng đoạn mã này để xác định URL gốc của một phần nội dung là gì, chúng tôi gọi là URL chính tắc. Chúng tôi có một hướng dẫn cuối cùng tuyệt vời để dựa vào Rel = canon canonical cho bạn thấy mọi thứ cần biết về nó.

Tập trung vào nội dung gốc, mới và có thẩm quyền

Một công cụ khác trong kho vũ khí của bạn để chống lại nội dung trùng lặp, sao chép và không nguyên bản là kỹ năng viết của bạn. Google tập trung vào chất lượng. Nó luôn luôn tìm kiếm những nội dung tốt nhất có thể phù hợp với mục đích của người dùng nhất. Mục tiêu của bạn không phải là kiếm tiền nhanh mà để lại ấn tượng lâu dài. Xem ra cho nội dung mỏng và đảm bảo làm cho nó nguyên bản và chất lượng cao.

Điều tương tự cũng xảy ra với nội dung tương tự trên trang web của bạn. Chúng ta đã nói về việc ăn thịt từ khóa trước đây và đây là một phần mở rộng của điều đó. Gấp một số bài viết có thể so sánh thành một có thể đạt được kết quả tốt hơn nhiều, cả về thứ hạng cũng như chống lại nội dung trùng lặp.

Đây là Google mang nội dung tương tự:

Tối thiểu hóa nội dung tương tự: Nếu bạn có nhiều trang tương tự nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang thành một. Ví dụ: nếu bạn có một trang web du lịch với các trang riêng biệt cho hai thành phố, nhưng cùng một thông tin trên cả hai trang, bạn có thể hợp nhất các trang thành một trang về cả hai thành phố hoặc bạn có thể mở rộng từng trang để chứa nội dung duy nhất về mỗi thành phố. Giáo dục

Nội dung trùng lặp ở khắp mọi nơi – biết phải làm gì về nội dung đó

Ex-Googler Matt Cutts từng nổi tiếng nói rằng 20% đến 30% web bao gồm các nội dung trùng lặp . Trong khi tôi không chắc những con số này vẫn chính xác; nội dung trùng lặp tiếp tục bật lên trên mỗi trang web. Đây không phải là tin xấu. Khắc phục những gì bạn có thể và không thử và biến nội dung trùng lặp và anh chị em của nó đã sao chép nội dung và nội dung mỏng thành chiến lược SEO khả thi.

Cách kiểm tra nội dung trùng lặp

Thêm một đoạn trích phòng ngừa

Liên kết trong đoạn trích này đảm bảo rằng mọi trình cào đều bao gồm liên kết đến bài viết gốc. Tất nhiên, điều này đã giúp ngăn chặn nội dung trùng lặp, vì Google sẽ tìm thấy backlink đó đến trang web của bạn.

Tuy nhiên, nếu bạn viết nội dung tuyệt vời, nội dung của bạn sẽ được nhân đôi. Và bản sao đó sẽ không bao gồm một liên kết đến trang web của bạn. Tất cả lý do nhiều hơn để làm một kiểm tra nội dung trùng lặp một cách thường xuyên.

Trình kiểm tra nội dung trùng lặp CopyScape

Có rất nhiều công cụ để tìm nội dung trùng lặp. Một trong những trình kiểm tra nội dung trùng lặp được biết đến nhiều nhất có lẽ là CopyScape.com . Công cụ này hoạt động khá dễ dàng: chèn một liên kết vào hộp trên trang chủ và CopyScape sẽ trả về một số kết quả, được trình bày một chút giống như các trang kết quả tìm kiếm của Google.

Bạn có thể nhấp vào kết quả để biết thêm chi tiết và để xem phần nào trong văn bản của bạn bị trùng lặp.

CopyScape làm nổi bật rõ ràng văn bản mà họ tìm thấy là trùng lặp, điều này cho thấy ý tưởng về mức độ nghiêm trọng của việc sao chép. Nếu nó chỉ là một tỷ lệ nhỏ của trang, tôi sẽ không lo lắng. Nếu nó giống hơn 40% và chiếm một phần khá lớn của trang khác, tôi chỉ cần gửi email cho họ để thay đổi văn bản đã sao chép.

Sử dụng trình kiểm tra nội dung trùng lặp CopyScape để tìm nội dung được sao chép từ trang web của bạn trên các trang web khác. Một lần nữa, đây là một trong nhiều công cụ, nhưng đây là một công cụ miễn phí và dễ sử dụng. Tuy nhiên, hãy nhớ rằng bạn sẽ không được quét không giới hạn cho một trang web. Nếu bạn muốn tìm hiểu sâu hơn một chút về nội dung trùng lặp của mình, CopyScape cũng cung cấp một phiên bản cao cấp để có cái nhìn sâu sắc hơn.

Mẹo: Sao chép nội dung trên các trang sản phẩm

Sử dụng CopyScape, chúng tôi thường thấy các mô tả của nhà sản xuất được sử dụng trong các cửa hàng trực tuyến bị trùng lặp. Thông thường, chúng được tự động nhập vào hệ thống quản lý nội dung của cửa hàng. Thông thường, không chỉ cho trang web của bạn. Hãy nhận ra điều này. Tôi hiểu khá khó khăn để viết mô tả sản phẩm độc đáo cho mỗi sản phẩm. Nhưng, ít nhất, các sản phẩm bán chạy nhất của bạn, ít nhất, có xứng đáng như vậy không? Vì vậy, bắt đầu ngay bây giờ và lấy nó từ đó!

Kiểm tra nội dung trùng lặp nội bộ của Siteliner

Siteliner là website có chức năng tương tự như CopyScape tìm kiếm nội dung trùng lặp nội bộ. Vì vậy, trình kiểm tra nội dung trùng lặp này sẽ tìm thấy nội dung trùng lặp trên trang web của riêng bạn .

Nội dung trùng lặp nội bộ

Nội dung trùng lặp nội bộ, làm thế nào điều đó xảy ra, bạn yêu cầu? Chà, một ví dụ rất phổ biến về điều này là khi một blog WordPress không sử dụng các đoạn trích mà hiển thị toàn bộ bài đăng trên blog trên trang chủ của blog. Điều đó có nghĩa là bài đăng trên blog có sẵn trên ít nhất hai trang: trang chủ và chính bài đăng đó. Và có lẽ nó cũng nằm trên các trang tổng quan về danh mục và thẻ. Đó là bốn phiên bản của cùng một bài viết trên trang web của riêng bạn.

Sử dụng đoạn trích (thay vì hiển thị toàn bộ bài viết) có lợi thế là đoạn trích luôn có một liên kết thích hợp đến bài viết. Liên kết này sẽ cho Google biết rằng nội dung ban đầu không nằm trên trang blog / danh mục / thẻ đó mà là trong chính bài đăng. Chúng tôi thường khuyên bạn nên sử dụng các trích đoạn.

Sử dụng liên kết trang web

Kiểm tra nội dung trùng lặp của Siteliner sẽ cho bạn thấy rất nhiều thứ, nhưng giới hạn ở 250 trang và cứ sau 30 ngày. Một lần nữa, có một phiên bản cao cấp, nhưng phiên bản miễn phí sẽ cho bạn một ấn tượng tốt. Chỉ cần thực hiện tìm kiếm và bạn sẽ kết thúc trên trang tổng quan. Bạn sẽ thấy tỷ lệ phần trăm nội dung trùng lặp nội bộ ở trên cùng bên trái. Đừng hoảng sợ khi bạn thấy số lượng cao, vì kiểm tra nội dung trùng lặp này cũng xem xét trích đoạn nội dung trùng lặp.

Chỉ cần nhấp vào một trong các liên kết và kiểm tra xem đó có thực sự là đoạn trích không. Đoạn trích rõ ràng liên kết đến bài viết, vì vậy nếu đó là trường hợp, bạn được bảo hiểm.

Sidenote về việc sử dụng trình kiểm tra nội dung trùng lặp

Trong khi Google hiểu thanh bên là gì, CopyScape và Siteliner dường như bao gồm tất cả văn bản trên một trang trong phần tính toán tỷ lệ phần trăm của họ. Điều này có nghĩa là tỷ lệ phần trăm thực tế của nội dung trùng lặp, khi chỉ nhìn vào nội dung chính của trang, có thể cao hơn. Hãy ghi nhớ điều này khi bạn sử dụng một trong những trình kiểm tra nội dung trùng lặp này. Chỉ là một cái đầu lên!

Kiểm tra nội dung trùng lặp thủ công

CopyScape và Siteliner là các trình kiểm tra nội dung trùng lặp đẹp, dễ sử dụng. Tuy nhiên, nếu bạn muốn xem những gì trùng lặp theo Google, bạn cũng có thể chỉ sử dụng chính Google.

Nếu bạn có một trang nhất định mà bạn muốn kiểm tra, chỉ cần truy cập trang đó. Sao chép một đoạn văn bản, tốt nhất là từ một phần mà bạn nghĩ có thể hấp dẫn để người khác sao chép. Chúng ta hãy xem qua bài viết về các lỗi SEO phổ biến của chúng tôi: Kiếm Nếu tiêu đề trang của bạn quá dài (hiện tại là 400 đến 600 pixel), nó sẽ bị cắt trong Google. Bạn không muốn khách truy cập tiềm năng không thể đọc tiêu đề đầy đủ trong SERPs. (Lưu ý rằng Google chỉ mất 32 từ đầu tiên vào tài khoản). 

Kiểm tra nội dung trùng lặp của riêng bạn

Sử dụng trình kiểm tra nội dung trùng lặp như CopyScape để tìm nội dung đã được sao chép từ trang web của bạn và sử dụng Google để xem nơi nào khác trên internet nội dung này kết thúc. Đây là những công cụ đơn giản phục vụ mục tiêu cao hơn: để ngăn chặn nội dung trùng lặp

Tác giả: Giang Lê

Tiếp cận kho kiến thức SEO của chúng tôi tại Kiến thức SEO.