根據 Google 官方文件的說明,robots.txt 是含特定規則的簡單文字檔,是用以告知搜尋引擎爬蟲你的網站中有哪些頁面是不需要被檢索的。操作 SEO 時,我們大多希望網頁進可能被檢索收錄來取得良好排名,但有些網頁對於 SEO 沒有幫助、甚至可能使排名變差,這時候就可以使用 robots.txt 避免檢索,以利減輕搜尋引擎爬蟲負擔、提升爬蟲爬取的速度,讓爬蟲把瀝去花再更重要的頁面上。
搜尋引擎爬蟲的運行可大致分為檢索(Crawling)、索引(Indexing)、用戶搜尋(Searching)、排名(Ranking)四大流程,robots.txt 是在檢索階段和 Google 的爬蟲溝通,告知 robots.txt 中的哪些頁面是不希望被檢索、請爬蟲進行封鎖(Disallow)。
➤ 了解 Google 爬蟲與演算法運作原理這邊請:Google 演算法攻略:演算法邏輯與重大更新解析(2023 更新版)
通常以下幾個型態的網頁會建議設定於 robots.txt 當中:
開發中與測試用的網頁因測試之故所以須安排上線,但其內容尚未開發完善,可能造成使用者體驗不佳,且會耗費爬蟲時間爬取未定案的網頁內容,因此可設定 robots.txt 告知爬蟲不進行爬取;而後台頁面除了內容只開放給內部人員瀏覽外,其內容通常資料結構龐雜(可能有全網站前台顯示的圖片、影片等媒體資料,或其他無關前台使用者體驗的資源檔案),為爬蟲效率考量也建議將該頁面放入 robots.txt 檔案當中。
Google 官方對於 robots.txt 有明確的規範文件,Ranking 整理了重要規範供讀者們參考。切記須遵守格式規範,若 Google 無法理解 robots.txt 檔案的內容可能會直接忽略你所撰寫的文件、無法達到指令效果喔!
➤ Meta robots 應用請參考:【Meta Robots 總整理】透過 Noindex Nofollow 限制爬蟲,強化 SEO 失分漏洞!
以下為一個簡易的 robots.txt 檔案示意:
# robots.txt for https://ranking.works
User-agent: Googlebot
Disallow: /app
Sitemap: https://ranking.works/sitemap.xml
robots.txt 通常以五個語法參數構成:
➤ 延伸閱讀:Sitemap 是什麼?一次掌握 Sitemap 網站地圖製作與提交流程
說明:不做任何檢索限制
User-agent: *
Disallow:
說明:通常用於測試網站、內部網站,正式網站請避免使用
User-agent: *
Disallow: /
說明:下方 robots.txt 情境為「只允許 Googlebot 爬取」
User-agent: Googlebot
Disallow:
說明:下方 robots.txt 情境為「不允許 Googlebot 爬取」
User-agent: *
Disallow: /
說明:下方 robots.txt 情境為「只允許 Googlebot 爬取 /blog/ 下的內容 」
User-agent: Googlebot
Allow: /blog/
說明:下方 robots.txt 情境為「不允許 Googlebot 爬取 /blog/ 下的內容 」
User-agent: Googlebot
Disallow: /blog/
若是不想手動產出 robots.txt 檔案,可多利用 robots.txt 產製工具(robots.txt generator)來加快產出速度喔!
已上線網站想查看 robots.txt 內容可直接在網址後方加入「/robots.txt」查看。若想測試 robots.txt 檔案,以下整理 2 個 robots.txt 的測試工具,幫助讀者們快速上手!
在 Google Search Console 有提供一個官方的 robots.txt 測試工具,可用於編輯與提交 robots.txt 檔案。另外也提供檢查特定網址是否被爬蟲封鎖的搜尋欄位
Ranking 提供網站 SEO 健檢報告功能,針對 Google 演算法看重的各項指標提供評分與項目優化建議。其中就包含 robots.txt 的項目檢測,若網站中未有 robots.txt 檔案,也會顯示檢查結果並提示新增;另檢索與索引項目如 Sitemap、Meta robots 標籤(Meta noindex、Meta nofollow)也能一張表格確認。其他如網站安全性、使用體驗等指標也整合於同一個頁面,所有細節一次兼顧。
體驗 SEO 高效檢測:註冊 Ranking SEO 工具享有免費七天體驗!
上面不斷提到的 Meta robots 同樣是在針對爬蟲的檢索索引進行部分處理,而究竟 Meta robots 與 robots.txt 究竟有何不同呢?此處我們以最容易和 robots.txt 混淆的 Meta robots noindex 標籤進行表格整理說明。
robots.txt | noindex | |
---|---|---|
主要功能 | 限制爬蟲瀏覽,進而有機會封鎖檢索 | 禁止索引,使設定的頁面不會出現於搜尋結果 |
設定方式 | 提交 robots.txt 文字檔於根目錄 | 在想要限制的頁面設定 HTML Meta 標籤 |
若想更了解關於 Meta robots 兩個標籤(noindex、nofollow)的比較,或其他 Meta 標籤的相關說明,歡迎參考以下兩篇文章進行更深入的探討:
➤ Meta robots 說明:【Meta Robots 總整理】透過 Noindex Nofollow 限制爬蟲,強化 SEO 失分漏洞!
➤ Meta 標籤全攻略:【HTML Meta Tags 攻略】掌握 Meta Title & Description,搶佔 SEO 高位!
期許用深入淺出的方式帶你進入 SEO 世界,提供實用性高的優質文章,簡化 SEO 複雜流程及技術,讓每個人都能快速理解 SEO 行銷,一起登上 Ranking 火箭讓排名再創高峰!※若有行銷相關問題或者業務合作歡迎隨時與我們聯繫!
想透過 SEO 提升品牌曝光度及網站流量,並獲得更多商機嗎?
SEO 專家|Ranking 提供全方位解決方案,讓你排名一飛沖天!