Báo cáo Trạng thái lập chỉ mục | Brandee
Sử dụng báo cáo này để tìm hiểu những trang nào của bạn đã được lập chỉ mục và cách khắc phục các trang không thể lập chỉ mục. Mỗi thanh trong biểu đồ thể hiện tổng số URL thuộc một trạng thái cụ thể (hợp lệ, lỗi, v.v.) theo nhận định của Google.
MỞ BÁO CÁO TRẠNG THÁI LẬP CHỈ MỤC
Tốt nhất là bạn nên thấy số trang được lập chỉ mục hợp lệ tăng dần dần khi trang web của bạn phát triển thêm.
Báo cáo cấp cao nhất cho biết trạng thái lập chỉ mục của tất cả các trang mà Google đã cố thu thập dữ liệu trên trang web của bạn, được nhóm theo trạng thái và nguyên nhân.
Mỗi trang có thể có một trong các cấp trạng thái chung sau đây:
Mỗi trạng thái (hợp lệ, cảnh báo, lỗi, bị loại trừ) đều có thể có nguyên nhân cụ thể. Dữ liệu trong bảng được nhóm theo nguyên nhân và mỗi hàng có thể mô tả một hoặc nhiều URL. Hãy xem mục Mô tả loại trạng thái dưới đây để biết mô tả về từng loại trạng thái và cách xử lý.
Trạng thái của quy trình xác thực do người dùng khởi tạo cho vấn đề này. Bạn nên ưu tiên các vấn đề chưa được xác thực hoặc bắt đầu.
Bộ lọc thả xuống phía trên biểu đồ cho phép bạn lọc kết quả lập chỉ mục theo cơ chế mà qua đó Google đã phát hiện URL. Có sẵn các giá trị sau:
Một URL được xem là gửi bởi sơ đồ trang web ngay cả khi Google đã phát hiện thấy URL đó bằng cơ chế khác (ví dụ như bằng cách thu thập dữ liệu tự nhiên từ trang khác).
Thao tác nhấp vào một hàng ở trang đầu sẽ hiển thị chi tiết cho một loại trạng thái cụ thể. Báo cáo nguyên nhân chứa các thông tin sau:
Quan trọng: Bạn thấy một URL bị đánh dấu là có vấn đề mà bạn đã khắc phục? Có lẽ bạn đã khắc phục vấn đề SAU lần thu thập dữ liệu cuối cùng của Google. Vì thế, nếu bạn thấy URL có một vấn đề mà bạn đã khắc phục, hãy kiểm tra ngày thu thập dữ liệu cho URL đó:
Sau đây là những nguyên nhân có thể cho mỗi trang của bạn.
Bị loại trừ
Các trang này thường không được lập chỉ mục, nhưng chúng tôi nghĩ đó là ý muốn của bạn.
Bị chặn bởi thẻ ‘noindex’ (ngăn lập chỉ mục): Khi cố gắng lập chỉ mục trang, Google đã gặp phải lệnh ‘noindex’ và do đó không lập chỉ mục trang. Nếu không muốn trang này được lập chỉ mục thì bạn đã đạt được mục đích của mình. Nếu muốn trang này được lập chỉ mục, bạn nên xóa lệnh ‘noindex’ đó.
Bị chặn bởi công cụ xóa trang: Trang hiện bị chặn bởi yêu cầu xóa URL. Nếu là chủ sở hữu trang web được xác minh, bạn có thể sử dụng công cụ xóa URL để xem ai đã gửi yêu cầu xóa URL. Yêu cầu xóa chỉ thích hợp trong một khoảng thời gian nhất định (hãy xem tài liệu được liên kết). Sau thời gian đó, Googlebot có thể quay lại và lập chỉ mục trang, ngay cả khi bạn không gửi yêu cầu lập chỉ mục khác. Nếu bạn không muốn Google lập chỉ mục trang, hãy sử dụng ‘noindex’, yêu cầu ủy quyền cho trang hoặc xóa trang.
Bị chặn bởi robots.txt: Trang này đã bị tệp robots.txt chặn với Googlebot. Bạn có thể xác minh điều này bằng trình kiểm tra robots.txt. Xin lưu ý rằng điều này không có nghĩa là trang sẽ không được lập chỉ mục bằng một số phương thức khác. Nếu có thể tìm thấy thông tin khác về trang này mà không cần tải trang, Google vẫn có thể lập chỉ mục trang (mặc dù điều này ít gặp hơn). Để đảm bảo rằng một trang không được lập chỉ mục bởi Google, hãy xoá quy tắc chặn trong robots.txt và sử dụng lệnh ‘noindex’.
Bị chặn do yêu cầu trái phép (401): Trang đã bị chặn với Googlebot do có yêu cầu ủy quyền (phản hồi 401). Nếu bạn muốn Googlebot có thể thu thập dữ liệu trang này, hãy xoá yêu cầu ủy quyền hoặc cho phép Googlebot truy cập vào các trang của bạn.
Thu thập dữ liệu bất thường: Một điều bất thường không xác định đã xảy ra khi tìm nạp URL này. Điều này có thể là mã phản hổi cấp 4xx hoặc 5xx; hãy thử tìm nạp trang bằng cách sử dụng Tìm nạp như Google nhằm xác định xem liệu trang có gặp phải bất kỳ vấn đề tìm nạp nào không. Trang chưa được lập chỉ mục.
Đã thu thập dữ liệu – hiện chưa được lập chỉ mục: Trang đã được Google thu thập dữ liệu nhưng chưa được lập chỉ mục. Trang có thể được hoặc không được lập chỉ mục trong tương lai; bạn không cần phải gửi lại URL này để thu thập dữ liệu.
Đã thu thập dữ liệu – hiện chưa được lập chỉ mục: Trang đã được phát hiện bởi Google nhưng chưa được thu thập dữ liệu. Trường hợp thường gặp là Google đã cố thu thập dữ liệu URL này nhưng trang web đã quá tải; do đó Google phải lên lịch thu thập lại dữ liệu. Đây là lý do tại sao ngày thu thập dữ liệu cuối cùng để trống trên báo cáo.
Trang thay thế có thẻ chuẩn thích hợp: Trang này trùng lặp với một trang mà Google công nhận là trang chuẩn. Trang này trỏ đến trang chuẩn thích hợp, do vậy bạn không cần phải làm gì.
Trang trùng lặp không có thẻ chuẩn: Trang này có các trang trùng lặp nhưng không trang nào trong số đó được đánh dấu là chuẩn. Chúng tôi nghĩ rằng trang này không phải là trang chuẩn. Bạn nên đánh dấu trang chuẩn cho trang này một cách rõ ràng. Bạn sẽ thấy URL chuẩn do Google chọn khi kiểm tra URL này.
Trang trùng lặp không phải HTML: Một trang không phải HTML (ví dụ: tệp PDF) là bản sao của một trang khác mà Google đã đánh dấu là trang chuẩn. Thường chỉ có URL chuẩn sẽ được hiển thị trong Google Tìm kiếm. Nếu muốn, bạn có thể chỉ định trang chuẩn bằng cách sử dụng tiêu đề HTTP liên kết trong phản hồi.
Google chọn trang chuẩn khác với người dùng: URL này được đánh dấu là trang chuẩn cho một tập hợp trang, nhưng Google nghĩ rằng một URL khác là phiên bản chuẩn thích hợp hơn. Google đã lập chỉ mục trang mà chúng tôi xem là trang chuẩn chứ không phải trang này. Bạn nên đánh dấu trang này là trang trùng lặp của URL chuẩn một cách rõ ràng. Google đã phát hiện thấy trang này mặc dù không có yêu cầu thu thập dữ liệu rõ ràng. Bạn sẽ thấy URL chuẩn do Google chọn khi kiểm tra URL này.
Không tìm thấy (404): Trang này đã trả về lỗi 404 khi được yêu cầu. Google đã phát hiện thấy URL này mặc dù không có yêu cầu rõ ràng hay sơ đồ trang web nào. Google có thể đã phát hiện thấy URL dưới dạng liên kết từ một trang web khác hoặc có thể trang đã tồn tại trước đó và đã bị xóa. Googlebot có thể sẽ tiếp tục thử thu thập dữ liệu URL này trong một khoảng thời gian. Không có cách nào để yêu cầu Googlebot quên một URL vĩnh viễn, mặc dù Googlebot sẽ thu thập dữ liệu URL đó ít thường xuyên hơn. Các phản hồi 404 không phải là vấn đề nếu do chủ đích. Nếu trang của bạn đã di chuyển, hãy sử dụng chuyển hướng 301 tới vị trí mới. Hãy đọc phần Sửa lỗi 404
Trang bị xóa bởi có khiếu nại pháp lý: Trang đã bị xoá khỏi chỉ mục do khiếu nại pháp lý.
Trang có chuyển hướng: URL là một chuyển hướng và do đó không được thêm vào chỉ mục.
Đã đưa vào hàng đợi thu thập dữ liệu: Trang đang ở trong hàng đợi thu thập dữ liệu; hãy kiểm tra lại sau vài ngày để xem Google đã thu thập dữ liệu trang chưa.
Soft 404: Yêu cầu trang trả về lỗi mà chúng tôi nghĩ là phản hồi soft 404. Điều này có nghĩa là trang trả về thông báo “not found” (không tìm thấy) thân thiện với người dùng mà không kèm theo mã phản hồi 404 tương ứng. Bạn nên trả về mã phản hồi 404 cho các trang “not found” (không tìm thấy) thực sự hoặc thêm thông tin khác vào trang để cho chúng tôi biết rằng đó không phải là mã soft 404. Tìm hiểu thêm
URL đã gửi bị loại bỏ: Bạn đã gửi trang này để lập chỉ mục nhưng trang đã bị loại khỏi chỉ mục vì một lý do không xác định.
URL đã gửi không được chọn là trang chuẩn: URL thuộc một tập hợp các URL trùng lặp mà trong đó không có trang chuẩn được đánh dấu rõ ràng. Bạn đã yêu cầu URL này được lập chỉ mục một cách rõ ràng, nhưng vì URL là trang trùng lặp và Google nghĩ rằng một URL khác là trang chuẩn thích hợp hơn, Google đã không lập chỉ mục URL này. Thay vào đó, chúng tôi đã lập chỉ mục trang chuẩn mà chúng tôi chọn. (Google chỉ lập chỉ mục trang chuẩn trong một nhóm các trang trùng lặp.) Sự khác nhau giữa trạng thái này và “Google chọn trang chuẩn khác với người dùng” là bạn đã yêu cầu lập chỉ mục một cách rõ ràng trong trường hợp này. Bạn sẽ thấy URL chuẩn do Google chọn khi kiểm tra URL này.