Để chắc là website của bạn xuất hiện trên Trang kết quả tìm kiếm – Search Engine Result Pages (SERPs), bạn cần để “bots” truy cập vào những trang quan trọng trên website. File robots.txt được viết tốt có thể dùng để quản lý truy cập của những bots này tới trang bạn muốn (để tránh nó quét những nơi không cần thiết). Bài viết này, công ty SEO Ngọc Thắng sẽ chia sẻ với bạn những kiến thức và kinh nghiệm khi sử dụng file robots.txt giúp mang lại hiệu quả. Cùng xem ngay nhé!
File Robots.txt là gì?
MỤC LỤC
File Robots.txt là tập tin văn bản đơn giản, được tạo và lưu trữ ở dưới dạng .txt. Đây cũng là một phần trong giao thức Robots Exclusion Protocol (REP). Mục đích tạo ra để chứa một nhóm tiêu chuẩn quy định cách Robot Web thu thập dữ liệu.
Ý nghĩa của WordPress Robots txt cũng liên quan đến hoạt động truy cập, Indexing, cung cấp nội dung đó cho người dùng. Để vận hành hiệu quả, REP gồm cả các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions.
Sự phối hợp này giúp công cụ tìm kiếm, điển hình là Google xử lý các liên kết. Trên thực tế, tạo WordPress Robots.txt giúp nhà quản trị web linh hoạt, chủ động hơn. Họ dễ dàng cho phép hoặc không cho phép Bot Indexing phần nào đó trong trang.
Vị trí Robots.txt cho WordPress
Theo sau định nghĩa, điều cơ bản cần biết là vị trí đặt file Robots.txt ở đâu. Khi tạo website WordPress sẽ tự động tạo ra tệp này và đặt bên dưới thư mục gốc Server.
Giả sử, Site của bạn đặt trong thư mục gốc có địa chỉ yourwebsite.com. Như vậy, đường dẫn truy cập Robots txt WordPress là yourwebsite.com/robots.txt.
Bạn cần lưu ý rằng đây là file ảo do WordPress tự thiết lập mặc định. Tệp này không thể chỉnh sửa được mặc dù hoạt động vẫn diễn ra bình thường.
Tóm lại, vị trí Robot.txt WordPress nằm ở thư mục gốc. Folder này thường có tên là public_html và www (hoặc tên website). Bạn cũng có thể thay đổi bằng cách tạo file Robots.txt cho WordPress thay thế.
Tại sao bạn nên quan tâm đến tệp Robots.txt của mình?
Đối với hầu hết các quản trị web, lợi ích của tệp robot.txt có cấu trúc tốt thường sẽ có hai tác dụng chính sau:
- Tối ưu hóa tài nguyên thu thập dữ liệu của các công cụ tìm kiếm bằng cách nói với họ đừng lãng phí thời gian trên các trang mà bạn không muốn được lập chỉ mục. Điều này giúp đảm bảo rằng các công cụ tìm kiếm tập trung vào việc thu thập dữ liệu các trang mà bạn quan tâm nhất.
- Tối ưu hóa việc sử dụng máy chủ của bạn bằng cách chặn các bot đang lãng phí tài nguyên. Nhiều trường hợp website gặp tình trạng chậm, lag do hosting/máy chủ phải cung cấp tài nguyên để phản hồi các request từ các bots.
3 Cách tạo file robots.txt WordPress đơn giản
Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Hãy tham khảo 3 cách tạo robots.txt cho WordPress dưới đây:
1. Sử dụng Yoast SEO
Bạn có thể chỉnh sửa hoặc tạo file robots.txt cho WordPress trên chính WordPress Dashboard với vài bước đơn giản. Đăng nhập vào website của bạn, khi đăng nhập vào bạn sẽ thấy giao diện của trang Dashboard.
Nhìn phía bên trái màn hình, click vào SEO > Tools > File editor.
Tính năng file editor sẽ không xuất hiện nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Do vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).
Lúc này bạn sẽ thấy mục robots.txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt đấy.
2. Qua bộ Plugin All in One SEO
Hoặc bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress – Đơn giản, dễ sử dụng.
Để tạo file robots.txt WordPress, bạn phải đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active cho mục robots.txt
Lúc này, trên giao diện sẽ xuất hiện nhiều tính năng thú vị:
Và khi đó, mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Bạn có thể tạo lập cũng như điều chỉnh file robots.txt WordPress tại đây.
Tuy nhiên, bộ plugin này có một chút khác biệt so với Yoast SEO tôi vừa đề cập ở trên.
All in One SEO làm mờ đi thông tin của file robots.txt thay vì bạn được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến bạn hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình. Đặc biệt một số Malware bots sẽ gây hại cho website mà bạn không ngờ tới.
3. Tạo rồi upload file robots.txt qua FTP
Nếu bạn không muốn sử dụng plugin để tạo file robots.txt WordPress thì tôi có 1 cách này cho bạn – Tự tạo file robots.txt thủ công cho WordPress của mình.
Bạn chỉ mất vài phút để tạo file robots.txt WordPress này bằng tay. Sử dụng Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress theo Rule tôi đã giới thiệu ở đầu viết. Sau đó upload file này qua FTP không cần sử dụng plugin, quá trình này rất đơn giản không tốn bạn quá nhiều thời gian đâu.
Một số quy tắc khi tạo file robots.txt
Để được các con bot tìm thấy thì các file robots.txt WordPress phải được đặt trong các thư mục cấp cao nhất của trang web.
Txt phân biệt chữ hoa và chữ thường. Vì thế tệp phải được đặt tên là robots.txt. (không phải Robots.txt hay robots.TXT, …)
Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website của bạn.
Một số User-agent chọn cách bỏ qua các file robots.txt chuẩn của bạn. Điều này khá phổ biến với các User-agent bất chính như:
- Malware robots (bot của các đoạn mã độc hại)
- Các trình Scraping (quá trình tự thu thập thông tin) địa chỉ Email
Các tệp robots.txt thường có sẵn và được công khai trên web. Bạn chỉ cần thêm /robots.txt vào cuối bất kì Root Domain để xem các chỉ thị của trang web đó. Điều này có nghĩa là bất kì ai cũng thấy các trang bạn muốn hoặc không muốn crawl. Vì vậy đừng sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.
Mỗi Subdomain trên một một Root Domain sẽ sử dụng các file robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com nên có các tệp robots.txt riêng (blog.example.com/robots.txt và example.com/robots.txt). Tóm lại, đây được xem là cách tốt nhất để chỉ ra vị trí của bất kì sitemaps nào được liên kết với domain ở cuối tệp robots.txt.
Những hạn chế của file robots.txt
Robots.txt mang đến những lợi ích không hề nhỏ cho website của bạn nhưng chúng vẫn còn một số hạn chế như:
1. Một số trình duyệt tìm kiếm không hỗ trợ các lệnh trong tệp robots.txt
Không phải công cụ tìm kiếm nào cũng sẽ hỗ trợ các lệnh trong tệp robots.txt, vậy nên để bảo mật dữ liệu, cách tốt nhất bạn nên làm là đặt mật khẩu cho các tệp riêng tư trên máy chủ.
2. Mỗi trình dữ liệu có cú pháp phân tích dữ liệu riêng
Thông thường đối với các trình dữ liệu uy tín sẽ tuân theo quy chuẩn của các lệnh trong tệp robots.txt. Nhưng mỗi trình tìm kiếm sẽ có cách giải trình dữ liệu khác nhau, một số trình sẽ không thể hiểu được câu lệnh cài trong tệp robots.txt. Vậy nên, các web developers phải nắm rõ cú pháp của từng công cụ thu thập dữ liệu trên website.
3. Bị tệp robots.txt chặn nhưng Google vẫn có thể index
Cho dù trước đó bạn đã chặn một URL trên website của mình nhưng URL đó vẫn còn xuất hiện thì lúc này Google vẫn có thể Crawl và index cho URL đó của bạn.
Bạn nên xóa URL đó trên website nếu nội dung bên trong không quá quan trọng để bảo mật cao nhất. Bởi vì nội dung trong URL này vẫn có thể xuất hiện khi ai đó tìm kiếm chúng trên Google.
Một số lưu ý khi sử dụng tệp robots.txt
- Việc chỉ định các lệnh cho từng User-agent là không cần thiết, bởi vì hầu hết các User-agent đều từ một công cụ tìm kiếm và đều tuân theo một quy tắc chung.
- Tuyệt đối không được dùng file robots.txt để chặn các dữ liệu riêng tư như thông tin người dùng vì Googlebot sẽ bỏ qua các lệnh trong tệp robots.txt nên khả năng bảo mật không cao.
- Để bảo mật dữ liệu cho website cách tốt nhất là dùng mật khẩu riêng cho các tệp hoặc URL không muốn truy cập trên website. Tuy nhiên, bạn không nên lạm dụng các lệnh robots.txt vì đôi khi hiệu quả sẽ không cao như mong muốn.
File robots.txt hoạt động như thế nào?
Phương thức hoạt động của file robots.txt diễn ra như sau:
Bước 1: Crawl (cào/phân tích) dữ liệu trên trang web để khám phá nội dung bằng cách đưa công cụ đi theo các liên kết từ trang này đến trang khác, sau đó thu thập dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl dữ liệu này còn được biết đến với tên khác là “Spidering”.
Bước 2: Index nội dung đó để đáp ứng yêu cầu cho các tìm kiếm của người dùng. File robots.txt sẽ chứa các thông tin về cách các công cụ của Google nhằm thu thập dữ liệu của website. Lúc này, các con bots sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.
Lưu ý: Nếu tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho website thì các con bots sẽ tiến hành thu thập các thông tin khác trên web.
Kiểm tra xem file WordPress robots.txt có hoạt động không
Bạn có thể kiểm tra tệp Robots.txt của bạn bằng công cụ Robots.txt tester của Google. Chỉ cần nhấp vào Please select a property, và chọn website của bạn, Google sẽ hiển thị công cụ kiểm tra hoạt động file robots.txt.
Bạn có thể điền bất kỳ URL nào, bao gồm cả trang chủ của bạn. Bạn sẽ thấy một màu xanh lá cây tức là mọi thứ có thể thu thập dữ liệu. Bạn cũng có thể kiểm tra các URL bạn đã chặn để đảm bảo chúng thực sự bị chặn và không được phép thu thập thập dữ liệu .
Lời kết
Trên đây là những gì mà Ngọc Thắng muốn chia sẻ với bạn về File Robots.xtx, hy vọng với những thông tin này sẽ giúp cho bạn đọc hiểu rõ được cách chúng hoạt động và sử dụng chúng sao cho mang lại hiệu quả tốt nhất cho website của mình.
Nếu như bạn còn đang gặp khó khăn gì với website của mình hoặc SEO mãi website không lên top thì đừng ngần ngại hãy liên hệ ngay với chúng tôi để được hỗ trợ và giải đáp những thắc mắc.
Hiện nay Ngọc Thắng đang cung cấp dịch vụ về website từ xây dựng, thiết kế web đến các dịch vụ SEO tổng thể và SEO từ khóa chuyên nghiệp và hiệu quả đã được rất nhiều khách hàng sử dụng. Nếu còn bất kỳ thắc mắc gì về các thông tin mà chúng tôi chia sẻ bên trên hay bạn đang tìm kiếm một dịch vụ webiste uy tín thì đừng ngần ngại hãy liên hệ ngay với chúng tôi để được tư vấn thêm nhé!
Với nhiều năm kinh nghiệm cũng như được khách hàng đánh giá cao, Ngọc Thắng tự tin là đơn vị cung cấp các dịch vụ website hàng đầu hiện nay.
Đại chỉ: Số 07 Ngách 2, Ngõ 121 Trần Phú, P. Văn Quán, Hà Đông, Hà Nội, Việt Nam
Tổng đài: 1900 89 21
Hotline: 098 148 1368
MST: 0107994795
Email: lienhe@ngocthang.vn
Website: https://ngocthang.net/
Tôi là Trần Đức Thắng, hiện đang là CEO & Co-Founder của Công Ty Ngọc Thắng. Tôi phát triển với nền tảng thiết kế website, SEO và Inbound Marketing. Hiện nay Ngọc Thắng cung cấp dịch vụ thiết kế website, SEO, quảng cáo Google Ads… Với kinh nghiệm triển khai nhiều dự án những năm qua, đội ngũ của Ngọc Thắng không ngừng nỗ lực mang đến những dịch vụ tốt với chi phí thấp nhất cho quý khách hàng.!