Duplicate Content là gì? Cách kiểm tra trùng lặp nội dung

Có lẽ bạn đã bắt gặp thuật ngữ Duplicate Content hay còn gọi là trùng lặp nội dung khá nhiều, nhưng nó là gì? Nội dung trùng lặp là nội dung nằm ở trong một URL. Nó có thể gây tổn hại cho thứ hạng của bạn và có nhiều chuyên gia nói rằng khi bạn trùng lặp nội dung số lượng lớn, chắc chắn bạn sẽ nhận hình phạt của Google. Nhưng theo kinh nghiệm của dịch vụ seo website chuyên nghiệp LTGSEO thì điều đó là không chính xác. Không có hình phạt nội dung trùng lặp, nhưng có vô số nội dung trùng lặp hoặc sao chép có thể khiến Google ảnh hưởng tiêu cực đến thứ hạng của bạn.

Nội dung trùng lặp rất nguy hiểm trong quá trình seo. Nếu nội dung của bạn tồn tại trên nhiều trang trên trang web của bạn hoặc các trang web khác, Google có thể bị nhầm lẫn và không biết nên xếp hạng nào trước. 

Ở bài viết này, dịch vụ seo từ khóa LTGSEO sẽ giải thích cách thực hiện kiểm tra nội dung trùng lặp, đôi khi bạn nên thực hiện để tìm nội dung được sao chép.

Băt đâu với dịch vụ seo LTGSEO nào!

Duplicate Content (Nội dung trùng lặp) là gì?

Dulicate Content (Nội dung trùng lặp) là tất cả nội dung giống nhau trên nhiều website giống với nội dung trên website của bạn. Nó thường xuất hiện trên một URL khác nhau và đôi khi ngay cả trên một tên miền khác. Hầu hết các nội dung trùng lặp xảy ra vô tình hoặc là kết quả của việc sao chép nội dung. Chẳng hạn, trang web của bạn có thể có sẵn trên cả www và không www hoặc HTTP và HTTPS – hoặc cả hai cùng một lúc! Hoặc có thể website của bạn sử dụng các tham số URL giống nhau gây nhầm lẫn cho các công cụ tìm kiếm. Ngay cả các trang AMP của bạn cũng có thể được tính là nội dung trùng lặp nếu không được liên kết chính xác. 

Vấn đề trùng lặp nội dung trên trang web xuất hiện đôi khi do bạn sao chép lại một nội dung quá nhiều lần trong từng bài viết. Hoặc, do bạn copy bài viết từ các trang web của đối thủ.

Trùng lặp nội dung có quan trọng?

Theo chúng tôi, vấn đề trùng lặp nội dung ảnh hưởng rất quan trọng trong SEO, không những vậy, nó còn ảnh hưởng trực tiếp đến các công cụ tìm kiếm!

Đối với công cụ tìm kiếm

Nội dung trùng ảnh hưởng đến các vấn đề chính cho các công cụ tìm kiếm như sau:

  1. Google Bot sẽ không biết được rằng bạn đang sử dụng nội dung cho chính xác URL nào, nó gây ra sự nhầm lẫn dẫn đến hiện tượng ăn thịt từ khóa.
  2. Họ không biết có nên giới thiệu nội dung (keyword, anchor text ,backlink , v.v.) đến một trang có nội dung trùng lặp nhau.
  3. Họ không biết nên xếp hạng phiên bản nào cho kết quả tìm kiếm khi bạn tiến hành seo nhiều nội dung cho URL.

Dành cho chủ sở hữu trang web

Khi có nội dung trùng lặp, chủ sở hữu trang web có thể bị xếp hạng và mất lưu lượng truy cập đến từ Google. 

  1. Để cung cấp trải nghiệm tìm kiếm tốt nhất, các công cụ tìm kiếm sẽ hiếm khi hiển thị nhiều phiên bản của cùng một nội dung và do đó buộc phải chọn phiên bản nào có khả năng là kết quả tốt nhất. Điều này làm giảm khả năng hiển thị của website có nội dung trùng lặp.
  2. Lực đẩy seo của trang web cũng bị ảnh hướng khi phải chia đều cho các URL mang nội dung giống nhau. Thay vì tất cả các liên kết Internalink đều trỏ đến một phần nội dung thì chúng lại trọ đến nhiều URL, và làm giảm đi hiệu quả tác động của Link. Bởi vì các liên kết Internalink là một yếu tố xếp hạng, điều này sau đó có thể ảnh hưởng đến khả năng hiển thị tìm kiếm của một phần nội dung.

Ví dụ dưới đây cho thấy sự rối loạn khi thu thập dữ liệu URL khi có quá nhiều nội dung giống nhau khi cùng xuất hiện trên các URL khác nhau:

Trùng lặp nội dung xảy ra khi nào

Trong phần lớn các trường hợp, các bạn làm seo đều không mong muốn nội dung trên website của mình seo sẽ xảy ra trùng lặp, tuy nhiên không tránh khỏi các bạn viết content đi copy bài viết từ đồi thủ. Trong thực tế làm seo của LTGSEO, chúng tôi đã thống kê được rằng có tới 29% web của khách hàng khi sử dụng dịch vụ seo có nội dung trùng lặp!

Chúng ta hãy xem một số cách phổ biến nhất mà nội dung trùng lặp được tạo ra một cách vô tình:

Tùy chỉnh sai URL

Có một vấn đề mà rất ít các SEOer hiện nay trên thị trường mắc phải, đó là tùy chỉnh sai URL, chẳng hạn như đặt trùng lặp tên của URL cũng có thể gây ra sự cố trùng lặp nội dung. Đây có thể là một vấn đề gây ra không chỉ bởi chính các tham số mà còn cả thứ tự xuất hiện các tham số đó trong chính URL đó.

Ví dụ:

  • www.ltgseo.com/dich-vu-seo?c … là một bản sao của www.ltgseo.com/dich-vu-seo
  • www.ltgseo/dich-vu-seo?c … & cat = 3 là bản sao của www.ltgseo.com/dich-vu-seo?cat=3&color=blue

Tương tự, ID của URL cũng gây ra lỗi trùng lặp nội dung phổ biến. Điều này xảy ra khi mỗi người dùng truy cập một trang web được gán một ID phiên khác nhau được lưu trữ trong URL.

Các phiên bản URL thân thiện với máy in cũng có thể gây ra sự cố trùng lặp nội dung khi nhiều phiên bản của trang được lập chỉ mục.

Chính vì vậy, sau khi tiến hành nghiên cứu xong số lượng nội dung cần thiết trên website, các bạn cũng nên để ý đến việc quy hoạch các URL thật chính xác trên trang nhé!

HTTP/HTTPS hoặc WWW/ non-WWW

Nếu trang web của bạn có các phiên bản riêng biệt tại “www.site.com” và “site.com” (có và không có tiền tố “www”) và cùng một nội dung tồn tại ở cả hai phiên bản, bạn đã tạo các bản sao của từng phiên bản một cách vô tình.

Tương tự, điều này cũng áp dụng cho các trang web duy trì các phiên bản ở cả http: // và https: //. Nếu cả hai phiên bản của một trang đều trực tiếp và hiển thị cho các công cụ tìm kiếm, bạn có thể gặp phải sự cố trùng lặp nội dung.

Nội dung bị loại bỏ hoặc sao chép

Nội dung không chỉ bao gồm các bài đăng trên website của bạn hoặc nội dung trên các trang thông tin sản phẩm. Các trang web thu thập thông tin sao chép nội dung của bạn trên các trang web của riêng họ có thể là một nguồn nội dung trùng lặp quen thuộc hơn, nhưng cũng có một vấn đề chung cho các trang web thương mại điện tử: thông tin sản phẩm.

Nếu nhiều trang web khác nhau bán cùng một mặt hàng và tất cả chúng đều sử dụng mô tả của nhà sản xuất về các mặt hàng đó, nội dung giống hệt nhau sẽ xuất hiện ở nhiều địa điểm trên web.

Cách xử lý trùng lặp nội dung

Bất cứ khi nào nội dung trên một trang web có thể được tìm thấy tại nhiều URL, nó sẽ được các công cụ tìm kiếm thu thập. Để khắc phục vấn đề trùng lặp nội dung trên trang có 3 cách thường dùng : Sử dụng chuyển hướng 301 đến đúng URL, đặt thuộc tính rel = canonical hoặc sử dụng Google Search Console.

Chuyển hướng 301 (Redirect 301)

Trong nhiều trường hợp, cách tốt nhất để chống lại nội dung trùng lặp là thiết lập chuyển hướng 301 từ trang “trùng lặp” sang trang có nội dung gốc.

Khi nhiều trang có khả năng xếp hạng tốt hơn được kết hợp thành một trang duy nhất, các trang sẽ ngừng cạnh tranh với nhau và tập hợp sức mạnh lại thành một; Các trang này sau khi tổng hợp lại cũng tạo ra một sự liên quan mạnh mẽ hơn và tín hiệu phổ biến nói chung. Điều này sẽ tác động tích cực đến khả năng xếp hạng tốt của trang đích.

Đặt thuộc tính Rel=”canonical”

Một tùy chọn khác để xử lý nội dung trùng lặp là sử dụng thuộc tính rel = canonical cho trang mang nội dung đầu tiên. Điều này cho các công cụ tìm kiếm biết rằng trang nào mang nội dung gốc để có thể dễ dàng xếp hạng, và các URL chỉ là trang copy nội dung.

Thuộc tính rel = “canonical” là một phần của phần đầu HTML của trang web và trông như thế này:

Thuộc tính rel = canonical nên được thêm vào phần đầu HTML của mỗi phiên bản trùng lặp của trang, với phần “URL CỦA TRANG GỐC” ở trên được thay thế bằng liên kết đến trang gốc.  T

Dưới đây là một ví dụ về đặt thuộc tính URL trên trang có nội dung gốc:

Tại đây, chúng ta có thể thấy BuzzFeed đang sử dụng các thuộc tính rel = canonical để phù hợp với việc sử dụng các tham số URL của họ (trong trường hợp này, nhấp theo dõi). Mặc dù trang này có thể truy cập được bằng hai URL, nhưng thuộc tính rel = canonical đảm bảo rằng tất cả các số liệu về nội dung và sức mạnh của các liên kết được trỏ về cho trang gốc.

Một thẻ meta có thể đặc biệt hữu ích trong việc xử lý nội dung trùng lặp là các robot meta , khi được sử dụng với các giá trị “noindex, follow“. Thường được gọi là Meta Noindex, thẻ robot meta này có thể được thêm vào phần đầu HTML của mỗi trang riêng lẻ cần được loại trừ khỏi chỉ mục của công cụ tìm kiếm.

Thẻ meta robot cho phép các công cụ tìm kiếm thu thập dữ liệu các liên kết trên một trang nhưng giữ cho chúng không bao gồm các liên kết đó trong chỉ mục của chúng. Điều quan trọng là trang trùng lặp vẫn có thể được thu thập thông tin, mặc dù bạn đang bảo Google không lập chỉ mục cho nó, bởi vì Google cảnh báo rõ ràng về việc hạn chế quyền truy cập thu thập dữ liệu vào nội dung trùng lặp trên trang web của bạn. 

Sử dụng robot meta là một giải pháp đặc biệt tốt cho các vấn đề trùng lặp nội dung liên quan đến phân trang.

Google Search Console

Google Search Console cho phép bạn đặt đường dẫn tên miền trên trang web của mình (ví dụ: https://ltgseo.com thay vì https://www.ltgseo.com) và chỉ định liệu Googlebot có nên thu thập thông số URL khác nhau hay không.

Hạn chế chính của việc sử dụng xử lý tham số làm phương pháp chính của bạn để xử lý nội dung trùng lặp là những thay đổi bạn thực hiện chỉ hoạt động cho Google. Bất kỳ quy tắc nào được áp dụng bằng Google Search Console sẽ không ảnh hưởng đến cách thu thập thông tin nào của công cụ tìm kiếm khác.

Trong trường hợp bạn muốn seo trang web của mình trên các công cụ tìm kiếm khác, bạn sẽ cần sử dụng các công cụ quản trị trang web cho các công cụ tìm kiếm khác ngoài việc điều chỉnh cài đặt trong Search Console.

Phương pháp khác để xử lý nội dung trùng lặp

  1. Duy trì tính nhất quán khi liên kết nội bộ trên toàn bộ trang web. Ví dụ: nếu quản trị viên web xác định rằng phiên bản chính của tên miền là www.example.com/, thì tất cả các liên kết nội bộ sẽ truy cập http: // www. example.co … thay vì http: // example.com/pa …
  2. Khi cung cấp nội dung, hãy đảm bảo trang web cung cấp thêm một liên kết trở lại nội dung ban đầu và không phải là một biến thể khác trên URL gốc.
  3. Để thêm một biện pháp bảo chống lại những kẻ chuyên ăn cắp nội dung của bạn, bạn nên thêm một liên kết rel = canonical vào các trang hiện có của mình. 

Cách tránh trùng lặp nội dung trên website

Nội dung trùng lặp khác nội dung sao chép, nội dung kém chất lượng

Chủ đề của nội dung trùng lặp gây nhầm lẫn cho rất nhiều người. Đối với Google, hầu hết các nội dung trùng lặp đều có nguồn gốc kỹ thuật, nhưng nó cũng sẽ xem xét chính nội dung đó. Trong khi hầu hết những người bình thường có thể sẽ nghĩ về những phần nội dung tương tự xuất hiện ở nơi khác trên một trang web khác. Để xác định thứ hạng, công cụ tìm kiếm phân biệt giữa nội dung trùng lặp, nội dung sao chépnội dung kém chất lượng.

Nội dung trùng lặp của bạn có thể phân loại là nội dung được sao chép nếu bạn sử dụng một văn bản hiện có và dùng lại nó để sử dụng lại trên trang web của bạn. Không thành vấn đề nếu bạn cho nó một chút khác biệt hoặc đặt một vài từ khóa, hành vi này được chấp nhận.

Nhưng nếu bạn sao chép hoàn toàn nội dung hoặc sử dụng nội dung không chất lượng, thì tiêu bạn rồi! Chắc hẳn các bạn biết về Thuật toán Panda chứ? Nội dung sao chép của bạn sẽ không được Google Index nói chi đến việc rank top Google.

Đừng chặn nội dung trùng lặp trên trang web của bạn

Google khá thích hợp trong việc khám phá và xử lý nội dung trùng lặp. Công cụ tìm kiếm đủ thông minh để biết cách phải làm gì với hầu hết các nội dung trùng lặp mà nó tìm thấy. Nếu nó tìm thấy nhiều phiên bản của một trang, nó sẽ xếp chúng thành phiên bản mà nó tìm thấy tốt nhất – trong hầu hết các trường hợp, đây sẽ là bài viết hoặc trang gốc.

Tuy nhiên, những gì nó cần là truy cập đầy đủ vào các URL này. Nếu bạn chặn Googlebot trong tệp robots.txt của bạn để thu thập các URL này, nó không thể tự tìm ra những điều này và bạn sẽ gặp rủi ro khi Google coi các trang này là các trường hợp riêng biệt. Dưới đây là một số điều bạn nên làm:

  • Sử dụng chuyển hướng 301 để chuyển hướng người dùng và trình thu thập thông tin đến URL chuẩn.
  • Sử dụng công cụ Google Console của Google để xử lý các URL.
  • Cho phép robot thu thập dữ liệu trên tất cả các URL.
  • Đánh dấu nội dung là trùng lặp bằng cách sử dụng rel = canonical.

Tập trung vào nội dung gốc, mới và chất lượng

Một công cụ khác trong kho vũ khí của bạn để chống lại nội dung trùng lặp, sao chép và không nguyên bản là kỹ năng viết của bạn. Google tập trung vào chất lượng. Nó luôn luôn tìm kiếm những nội dung tốt nhất có thể phù hợp với mục đích của người dùng nhất. Mục tiêu của bạn không phải là kiếm tiền nhanh mà để lại ấn tượng lâu dài.

Hãy viết nội dung bài bản bằng chính lời văn của mình, không nên nghe theo các khái niệm viết bài chuẩn SEO để xây dựng nội dung trang web, cũng như thuê các dịch vụ viết content kém chất lượng.

Thêm Internalink trong nội dung

Việc thêm liên kết của chính URL đó vào trong nội dung bài viết là một điều mà các Seoer giàu kinh nghiệm luôn làm khi tiến hành viết bài cho website. Việc này tuy nhỏ, nhưng là mẹo mà LTGSEO hay làm để phòng ngừa các seoer chuyên ăn cắp nội dung bài viết trên trang của mình. Tất nhiên, điều này đã giúp ngăn chặn nội dung trùng lặp, vì Google sẽ tìm thấy backlink trên trang sao chép nội dung trỏ đến trang web của bạn.

Tuy nhiên, nếu bạn viết nội dung tuyệt vời, nội dung của bạn sẽ được nhân đôi. Và bản sao đó sẽ không bao gồm một liên kết đến trang web của bạn. Tất cả lý do nhiều hơn để làm một kiểm tra nội dung trùng lặp một cách thường xuyên. Chính vì thế, các bạn nên sử dụng các phần mềm để kiểm tra.

Cách kiểm tra trùng lặp nôi dung

Dịch vụ seo uy tín LTGSEO hay kiểm tra trùng lặp nội dung trên các website khách hàng của mình trên trang https://smallseotools.com/plagiarism-checker/

Cách sử dụng rất đơn giản, như các bạn thấy giao diện khi bấm vào link trên ở bên dưới:

Sau đó copy một đoạn bài viết mà bạn nghi ngờ copy, và dán vào khung chứa text. Kế tiếp, bạn bấm vào nút Check Plagiarism.

 

Nếu như bạn thấy hiện chữ Unique 100% thì chúc mừng, nội dung của bạn không bị trùng lặp, Tool này sẽ tô đỏ những nội dung sao chép như ở hình bên trên.

 

Chuyển đến thanh công cụ