Xử lý trùng lặp nội dung bằng 301 Redirect và rel=“canonical”

Google là một bộ máy thông minh, luôn hướng tới trải nghiệm của người dùng, cung cấp cho người tìm kiếm những thông tin chính xác nhất và tốt nhất.

Việc Google tung ra thuật toán Google Panda đánh mạnh vào Onpage trên website như một lời cảnh tỉnh với các Webmaster. Trong rất nhiều yếu tố của thuật toán Pada thì yếu tố Duplicate Content có lẽ là yếu tố quan trọng nhất trong quyết định phạt một website nào đó.

xu-ly-loi-301-trung-lap-noi-dung

Trùng lặp nội dung ảnh hưởng như thế nào đối với trải nghiệm người dùng

Chắc không ai trong số chúng ta muốn đọc đi đọc lại một nội dung trên cùng website hoặc nội dung có ý giống nhau. Những nội dung đó gây nên sự nhàm chán và mệt mỏi, ảnh hưởng rất lớn tới trải nghiệm của người tìm kiếm.

Hơn nữa trùng lặp nội dung làm nhiễu thông tin của người tìm kiếm, không đem lại thông tin đa chiều và hữu ích.

Trùng lặp nội dung không có nghĩa chỉ là nội dung trùng lặp y hệt nhau, được chia làm 3 loại như sau:

  • Sao y bản chính: Đây là dạng nội dung hoàn toàn trùng lặp chỉ khác nhau về URL.
  • Gần giống với bản gốc: Nó có dạng nội dung gần giống với bản gốc chỉ khác nhau về từ ngữ, bố cục & hình ảnh.
  • Cross Domain: Dạng giống với một phần của nội dung gốc. Cách này thường xảy ra khi một nội dung được chia sẻ trên 2 trang web khác nhau với mỗi trang web là một phần nội dung gốc.

Các phương pháp khắc phục thông thường khi có nội dung trùng lặp

301 Redirects: Phương pháp này thông báo với người dùng và Google Bots rằng webpage hoặc website của bạn đã được di chuyển vĩnh viễn tới một địa chỉ mới.

Canonical Tag: Thuộc tính này thông báo với Google Bots rằng nội dung ở trang mà nó hướng tới là nội dung gốc.

Robots.txt: Thuộc tính của tệp tin robots.txt này nhằm ngăn chặn Google Bots lập chỉ mục những khu vực có nội dung trùng lặp, tức người dùng vẫn nhìn thấy nhưng Google không biết. Cách này chỉ hiệu quả khi mà khu vực đó chưa được Google Index bao giờ.

Google URL Removal: Đây là một tools trong Google Webmaster Tools nhằm mục đích xóa 1 URL nào đó ra khỏi danh sách chỉ mục của Google.

Sử dụng phương pháp nào hữu hiệu vào hiệu quả nhất?

Phần trên mình đã liệt kê cho các bạn 4 phương pháp khắc phục nội dung bị trùng lặp, nhưng nên dùng phương pháp nào để đạt hiệu quả tốt nhất. Hai phương pháp cuối cùng sử dụng Robots.txt & Google Removal chỉ là phương pháp chống cháy đối với Google, rất khó kiểm soát và hiệu quả không cao, hơn nữa không cải thiện trải nghiệm của người dùng.

Vậy đó chỉ là 2 phương pháp tham khảo, vậy còn 301 Redirect & Canonical Tag dùng như nào và khi nào thì sử dụng chúng. Sau đây chúng ta sẽ đi phân tích chi tiết hơn về cách sử dụng 2 phương pháp này.

Tất cả về 301 Redirects

301 Redirect là một mã trạng thái HTTP ( response code HTTP ) tiêu chuẩn trong việc quản lý điều hướng hoàn toàn và vĩnh viễn của một trang. Hơn nữa sử dụng phương pháp này còn cho phép bạn chuyển toàn bộ sức mạnh của pages sẵn có sang pages mới mà không mất đi nhiều sức mạnh của pages lúc trước.

Mã trạng thái 301 thông báo cho cả người dùng và bộ máy tìm kiếm trang ban đầu của bạn không còn có liên quan và các thông tin phù hợp nhất, cập nhật nhất có thể được tìm thấy trên trang pages mới.

Có vẻ như nó rất đơn giản đúng không nào.

Vấn đề thường gặp khi sử dụng phương pháp 301 Redirects

Có một vài vấn đề khi bạn sử dụng phương pháp này

Đầu tiên, việc chuyển hướng 301 không thể thực hiện dễ dàng nếu như bạn không có quyền truy cập vào FPT của website. Nếu bạn không thể truy cập vào FPT của web thì 301 Redirects không thể là sự lựa chọn cho bạn.

Một nhược điểm tiếp theo là nó khá mất thời gian trong việc các bộ máy tìm kiếm thực sự di chuyển và lập chỉ mục pages mới của bạn. Nó còn phụ thuộc vào việc bọ tìm kiếm có thường xuyên vào website của bạn hay không. Vì vậy không nên sử dụng nó khi bạn đang muốn chuyển hướng thật nhanh và có kết quả tốt trong thời gian ngắn hạn.

Cách thức sử dụng 301 Redirects

Tạo một file .htaccess rồi upload lên thư mục gốc của website. Nội dung file .htaccess như sau:

Option +FollowSymLinks

RewriteEngine One

RewriteBase /

Redirect 301 [đường-dẫn-cũ] [đường dẫn mới]

3 dòng đầu tiên là những dòng lệnh cơ bản phải có trong tệp tin .htaccess, câu lệnh redirect 301 cơ bản là tại dòng thứ 4.

Ví dụ: Redirect 301 /category/seo.html https://semaster.vn/cat/seo.html

Nếu chỉ Redirect trong cùng 1 host bạn có thể bỏ domain đi.

Ví dụ: Redirect 301 /category/seo.html /cat/seo.hml

Cách sử dụng 301 Redirect trong WordPress

Nếu bạn đang dùng plugin SEO by Yoast thì có thể dễ dàng sử dụng tính năng này bằng cách vào Post/Page và kéo xuống meta box WordPress SEO by Yoast -> Advanced rồi chỉ cần dán URL mới cần chuyển qua vào khung 301 Redirect là xong.

301 Redirect trong plugin SEO by Yoast

Demo: https://semaster.vn/hoc-tap/hoc-lam-seo.html

Ngoài ra còn có rất nhiều plugin hỗ trợ 301 Redirect khác như:

  • SEO Redirects 301s
  • Auto Redirect 404 in 301 for Trashed Posts

Khi nào nên sử dụng 301 Redirects

  • Như mặc định – Đây là một phương pháp hữu ích
  • Trang đang được di chuyển hoặc thay thế
  • Tên miền được di chuyển vĩnh viễn ( Mua lại, đổi thương hiệu,…)
  • Trang báo lỗi 404 và nội dung hết hạn.

Thuộc tính rel = “canonical”

Thuộc tính rel=“canonical” thường không sử dụng làm phương pháp thay thế 301 Redirects, hai phương pháp này là hoàn toàn khác nhau. Canonical chỉ thông báo với công cụ tìm kiếm mà không có thông báo đối với người người dùng.

Thường có những tình huống mà bạn có thể có một số trang web với một trong hai nội dung tương tự hoặc giống hệt nhau. Chúng ta đều biết rằng nội dung trùng lặp là hết sức suy hiểm trong việc xếp loại và đánh giá ranking, do đó chúng ta cần sử dụng thẻ rel = “canonical”.

Giả sử mình có hai trang bán sản phẩm ( hoặc có thể nhiều hơn ), các trang đó niêm yết cùng 1 loạt sản phẩm, chúng chỉ khác giá. Và có chứa cùng một loại nội dung nhưng có ULR khác nhau. Vậy khi Google lập chỉ mục cả 2 trang web, Google sẽ làm thế nào để xếp hạng chúng trên SERPs ( Search Result Pages ).

Bằng cách sử dụng thẻ rel=“canonical” bạn thông báo với Google rằng bạn chỉ lựa chọn 1 trong 2 trang web ưu tiên hiển thị trên SERPs mà thôi.

Vấn đề thường gặp khi sử dụng thuộc tính rel=“canonical”

Như với phương pháp 301 Redirect, thuộc tính rel=“canonical” cũng có một vài hạn chế.

Đầu tiên, có lẽ nó chỉ là một gợi ý cho các công cụ tìm kiếm. Trên thế giới có rất nhiều công cụ tìm kiếm khác nhau, sẽ không đảm bảo các công cụ tìm kiếm khác ngoài Google có thật sự sử dụng nó hay không. Vì vậy có thể vẫn có trường hợp trên một công cụ tìm kiếm nào đó, bản sao của nội dung của bạn vẫn được hiển thị cho người tìm kiếm.

Một vấn đề lớn nữa, nếu bạn không rõ cách sử dụng rel=“canonical” ra sao hoặc sử dụng sai cách sẽ dẫn tới việc website của bạn sẽ bị mất dần indexed.

Cách thức sử dụng rel=“canonical”

Không có gì là khó cả, nó có thể sử dụng ngay cả khi bạn không có quyền FPT chỉ với cú pháp như sau, được đặt trong phần <head> HTML

<meta rel=“canonical” href=“http://example.com/content-new.html” />

Thông báo trên chỉ ra rằng liên kết http://example.com/content-new.html mới chính là nội dung gốc của pages hiện tại.

Khi nào nên sử dụng rel=“canonical”

  • Khi phương pháp 301 Redirects không thể sử dụng hoặc mất quá nhiều thời gian
  • Nội dung trùng lặp nhưng bạn muốn người dùng nhìn thấy cả 2 pages
  • Trang chia ra làm nhiều pages ( Trang 1, 2, 3…. phân loại sắp xếp…)
  • Sử dụng khi có nội dung Cross Domain ( Tìm hiểu phần trên )

Thẻ rel=”canonical” trong WordPress

Nếu bạn sử dụng WordPress và dùng các plugin SEO như Yoast thì nó đã tự thêm thẻ rel=”canonical” trong từng trang dẫn đến chính trang đó để tránh trùng lặp nội dung.

Lời kết

Trùng lặp nội dung là một vấn đề không hề nhỏ, nó ảnh hưởng rất lớn tới xếp hạng kết quả tìm kiếm cũng như website của bạn. Lựa chọn một phương án giải quyết vấn đề trùng lặp nội dung tốt cũng có nghĩa bạn kiểm soát và điều hướng được người dùng. Hi vọng qua Tutorial này các bạn sẽ có cái nhìn khác về các phương pháp giải quyết trùng lặp nội dung.


Theo dõi giải pháp facebook