Từ trước tới nay, chúng ta đều hiểu rằng Google Bot sẽ thu thập dữ liệu như một text browse, đó là nó sẽ bỏ qua CSS và Javascript có trong website mà chỉ nhận các dữ liệu chữ và các liên kết trong đó. Đây là một bất lợi cho các website nào đang sử dụng Javascript để tải nội dung như áp dụng kỹ thuật AJAX, sử dụng AngularJS,…
Tuy nhiên, mới đây Google đã chính thức cập nhật lại rằng Google Bot đã có thể nhận diện CSS và Javascript trong website và thực thi nó, nên nếu website bạn đang chặn các file này để Google Bot crawl thì có thể sẽ ảnh hưởng đến kết quả tìm kiếm.
Lấy ví dụ trong WordPress, nếu bạn chặn thư mục /wp-content/ ở file robots.txt thì điều này sẽ ảnh hưởng.
Vì vậy, có thể nói rằng nếu như bây giờ trong file robots.txt của bạn có khai báo chặn Google Bot truy cập vào thư mục chứa dữ liệu của các file CSS và JS trên theme thì hãy bỏ nó đi để bot có thể vào và thực thi các file trong đó để có thể crawl nội dung hoàn chỉnh hơn.
cddos.net cũng đã sửa file robots.txt từ thế này:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/themes Disallow: /wp-content/plugins Disallow: /search?q=* Disallow: *?replytocom Disallow: */ attachment/* Disallow: /images/ Disallow: /forum/ Sitemap: https://onet.vn/sitemap.xml.gz
Thành thế này
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /search?q=* Disallow: *?replytocom Disallow: */ attachment/* Disallow: /images/ Disallow: /forum/ Sitemap: https://onet.vn/sitemap.xml.gz
Mặc dù có thể khó kiểm chứng được sự thay đổi này có mang lại lợi ích rõ ràng như thế nào hay không, nhưng một trong các thành công của chiến dịch SEO là hãy nên tôn trọng và áp dụng các quy tắc mà Google đưa ra để website có thể thân thiện với SEO hơn.