1/ Googlebot là gì ?
Googlebot chính là Web Crawler được sử dụng bởi Google để tìm và lấy các trang web và cập nhật Google index. Mỗi Googlebot có một địa chỉ IP riêng và thường được thay đổi.
2/ Googlebot kết nối với các trang web như thế nào ?
Googlebot tìm kiếm các thông tin trên mạng trong tất cả các trang như: Facebook, Twitter,… về máy tính của Google cập nhật Google index. Đó cũng là nơi mà các trang web được so sánh và xếp hạng.
Mỗi lần Googlebot đi qua trang web của bạn cũng là 1 lần tải bản sao tại thời điểm đó. Nếu bạn muốn trang web của mình được tìm thấy trong Google và để xếp hạng tối ưu, tất cả trang web tài nguyên phải được truy cập bằng Googlebot. Đặc biệt, bất kỳ nội dung nào, trang web nào Googlebot cũng có thể truy cập vào và lấy thông tin trong đó.
3/ Cách nhận biết Googlebot đang truy cập vào web của bạn
Googlebot phát hiện các website theo đường dẫn từ page sang page khác. Nhưng bot không thể nhìn thấy toàn bộ trang web, nó chỉ có thể thấy các phần riêng lẻ của trang đó và nó sẽ không lập chỉ mục. Nguyên nhân này cũng có thể do: Tài nguyên bị chặn bởi robots.txt, trang liên kết không thể đọc được hoặc không chính xác, URL hoạt động quá phức tạp …
Hầu hết những vấn đề này có thể được kiểm tra một cách nhanh chóng bằng cách sử dụng công cụ "fetch and render" hướng dẫn của Google có trong giao diện Google search console. Bạn nên xem xét các lỗi, thu thập dữ liệu thường xuyên để xác định bất kỳ vấn đề với trang web của bạn.
4/ Cách ngăn chặn Googlebot
Gần như không thể chặn hết hoàn toàn sự “xâm nhập” của Googlebot vì có thể một người nào đó follow một đường dẫn từ web server của bạn đến một web server khác thì URL bí mật của bạn sẽ xuất hiện trong tag giới thiệu, và có thể được lưu lại và public bởi các web server khác. Tuy nhiên vẫn có một số cách khắc phục như sau:
– Sử dụng một tập tin robots.txt. Hướng dẫn robot trong siêu dữ liệu của trang web và tiêu đề của mọi người
– Sử dụng sơ đồ trang web
– Sử dụng Google tìm kiếm giao diện điều khiển
5/ Các vấn đề với Spammer và User-agent
Googlebot thay đổi địa chỉ liên tục nên cách tốt nhất để xác định kết nối đến bot là sử dụng user-agent. Googlebot và các bot search engine khác đều bị chịu ảnh hưởng bởi nội dung cấu hình trong file robots.txt, ngoài một số trường hợp như: Report spam, paid link …
Nếu Feedfetcher có những hành động rõ ràng từ người sử dụng và tự đưa dữ liệu đến trang chủ Google không phải từ Googlebot nên Feedfetcher sẽ không chịu ảnh hưởng bởi file robots.txt.
Bạn có thể ngăn chặn việc này bằng cách gửi thông báo lỗi 401, 404 hoặc thông báo lỗi khác đến user-agent Feedfetcher-google.
6/ Công cụ robots.txt tester tool giúp bạn kiểm tra file robots.txt
Chúng ta truy cập vào Search Console để thực hiện một cách nhanh chóng.
Bạn Click và nút Gửi, mục đích việc này là chúng ta cập nhật lại robots.txt hiện tại.
Các con số trong bảng được thể hiện như sau:
1. Click Gửi.
2. Kiểm tra xem có chữ Thành công!..
3. Tắt cửa sổ đi.
Bạn cần refresh lại trang web bằng cách bấm F5 hoặc chuột phải nhấn reload.
Bạn cần kiểm tra dòng lệnh của robots.txt bằng thao tác Kiểm tra.
Dòng màu xanh lá xuất hiện với chữ Được Phép ở góc phải như trên hình tức là bạn đang kết nối thành công đến Googlebot.
7/ Một số lỗi thông thường
Googlebot không thể truy cập trang web của bạn:
– Website bị lỗi 404 hoặc 500
– Website bị chặn bởi meta robot
– Trùng lặp với nội dung ngoài website
– Thời gian tải trang quá lâu
– Các trang chứa ít nội dung mà lại chứa nhiều quảng cáo
– Site map không được cập nhật thường xuyên
– Website bị block bởi robots.txt
– Trùng lặp với nội dung ngoài website
– …
Lỗi URL Errors, robots.txt trong Google Webmaster Tool:
Nếu bạn thấy thông báo "Google couldn’t crawl your site because we were unable to access the robots.txt" hoặc bạn gặp trường hợp “Server error, Not found” hay Google không thể truy cập trang web của bạn do sự cố kết nối máy chủ. Bạn tìm cách khắc phục như sau:
– Kiểm tra trong file robots.txt của bạn xem có thư mục nào bị cấm mà google không thể tiến hành index các URL của các bạn.
– Kiểm tra hosting có chạy liên tục và không bị gián đoạn hay không. Nếu host bạn bị gián đoán (không uptime 100%) thì cũng có thể xảy ra lỗi trên.
Google bot luôn được xem trọng và vô cùng hữu ích trong việc quản lý các con bọ của Google, nếu sử dụng thành thạo, bạn có thể kiểm soát được luồng thông tin website cũng như bảo mật dữ liệu website không bị hiển thị trên Google. Chúc các bạn thành công!
Nguồn: matbao.net