Ranking 小編
2023/02/10
瀏覽次數

【robots.txt 全攻略】robots.txt SEO 概念與測試工具教學!

robots.txt 是我們與爬蟲溝通「不要檢索特定網頁」的一項重要設定。本篇將從解釋什麼是 robots.txt 開始,逐步帶您了解 robots.txt 在 SEO 操作的用途、程式碼的撰寫方式、使用情境等,為您建構最完整的 robots.txt 基礎概念。

robots.txt 是什麼?什麼情境須下須設定 robots.txt?

根據 Google 官方文件的說明,robots.txt 是含特定規則的簡單文字檔,是用以告知搜尋引擎爬蟲你的網站中有哪些頁面是不需要被檢索的。操作 SEO 時,我們大多希望網頁進可能被檢索收錄來取得良好排名,但有些網頁對於 SEO 沒有幫助、甚至可能使排名變差,這時候就可以使用 robots.txt 避免檢索,以利減輕搜尋引擎爬蟲負擔、提升爬蟲爬取的速度,讓爬蟲把瀝去花再更重要的頁面上。

一、Google 搜尋引擎運作原理補充

搜尋引擎爬蟲的運行可大致分為檢索(Crawling)索引(Indexing)用戶搜尋(Searching)排名(Ranking)四大流程,robots.txt 是在檢索階段和 Google 的爬蟲溝通,告知 robots.txt 中的哪些頁面是不希望被檢索、請爬蟲進行封鎖(Disallow)。

robots.txt 爬蟲

➤ 了解 Google 爬蟲與演算法運作原理這邊請:Google 演算法攻略:演算法邏輯與重大更新解析(2023 更新版)

 

二、什麼樣的情境須設定 robots.txt 呢?

通常以下幾個型態的網頁會建議設定於 robots.txt 當中:

  • 開發中網頁
  • 測試用網頁
  • 後台頁面

開發中與測試用的網頁因測試之故所以須安排上線,但其內容尚未開發完善,可能造成使用者體驗不佳,且會耗費爬蟲時間爬取未定案的網頁內容,因此可設定 robots.txt 告知爬蟲不進行爬取;而後台頁面除了內容只開放給內部人員瀏覽外,其內容通常資料結構龐雜(可能有全網站前台顯示的圖片、影片等媒體資料,或其他無關前台使用者體驗的資源檔案),為爬蟲效率考量也建議將該頁面放入 robots.txt 檔案當中。

 

如何設定 robots.txt?先了解 robots.txt 格式規範與注意事項

一、robots.txt 檔案與設定規範

Google 官方對於 robots.txt 有明確的規範文件,Ranking 整理了重要規範供讀者們參考。切記須遵守格式規範,若 Google 無法理解 robots.txt 檔案的內容可能會直接忽略你所撰寫的文件、無法達到指令效果喔!

  • 格式須為 UTF-8 字元編碼的純文字檔,勿以文書軟體(如 Word)編檔,因為這類軟體通常會將檔案儲存為某種專有格式,可能因此產生字元符號不相容等問題。
  • 內容換行須用 CR、CR/LF、或 LF 等分行字元
  • 檔案容量須小於 500 KB
  • 檔名須為「robots.tx」(全小寫)
  • 一個網站只能有一個 robots.txt 檔案,上傳至網站的根目錄

 

二、robots.txt 注意事項

  • 非所有搜尋引擎檢索器(爬蟲)都遵循 robots.txt 的語法,此文以最大搜尋引擎 Google 進行說明。若想操作其他搜尋引擎的 SEO 建議先確認是否支援 robots.txt。
  • robots.txt 對於搜尋引擎沒有強制力,無法完全禁止爬蟲檢索,謹起到建議作用;且檔案上傳後生效的時間不固定。
  • robots.txt 目的在於「限制爬蟲爬取頁面以提升效率」,檔案中設定的頁面仍可能被索引在搜尋結果頁中。若要完全限制此狀況,建議使用 Meta robots 的 noindex 語法。
  • 若網站是以第三方架站平台(Wordpress、Wix 等)架設,可能就不需要或無法直接編輯 robots.txt 檔案。通常這類的平台在後台會有設定頁面或機制取代直接操作檔案。

➤ Meta robots 應用請參考:【Meta Robots 總整理】透過 Noindex Nofollow 限制爬蟲,強化 SEO 失分漏洞!

 

robots.txt 怎麼寫?參數說明與撰寫範例一次看!

一、robots.txt 檔案參數說明

以下為一個簡易的 robots.txt 檔案示意:


# robots.txt for https://ranking.works

User-agent: Googlebot

Disallow: /app

Sitemap: https://ranking.works/sitemap.xml


 

robots.txt 通常以五個語法參數構成:

  • User-agent:指定此份 robots.txt 檔案對何種檢索器(爬蟲)生效,看是針對特定檢索器(Googlebot、bingbot 等)、或是針對全檢索器(可直接填入「*」)。
  • Allow:允許被檢索的網站內容完整路徑
  • Disallow:不允許被檢索的網站內容完整路徑
  • Crawl-delay:設定檢索器造訪網站「最短間隔秒數」,以阿拉伯數字填寫。
  • Sitemap:Sitemap 放置的完整路徑

➤ 延伸閱讀:Sitemap 是什麼?一次掌握 Sitemap 網站地圖製作與提交流程

 

二、robots.txt 撰寫範例:6 個使用情境實際檔案撰寫範例

A. 「所有」檢索器檢索「所有」網頁

說明:不做任何檢索限制


User-agent: *

Disallow:


 

B. 「所有」檢索器不可檢索「所有」網頁

說明:通常用於測試網站、內部網站,正式網站請避免使用


User-agent: *

Disallow: /


 

C. 「特定」檢索器檢索「所有」網頁

說明:下方 robots.txt 情境為「只允許 Googlebot 爬取」


User-agent: Googlebot

Disallow:


 

D. 「特定」檢索器不可檢索「所有」網頁

說明:下方 robots.txt 情境為「不允許 Googlebot 爬取」


User-agent: *

Disallow: /


 

E. 「特定」檢索器檢索「特定」網頁

說明:下方 robots.txt 情境為「只允許 Googlebot 爬取 /blog/ 下的內容 」


User-agent: Googlebot

Allow: /blog/


 

F. 「特定」檢索器不可檢索「特定」網頁

說明:下方 robots.txt 情境為「不允許 Googlebot 爬取 /blog/ 下的內容 」


User-agent: Googlebot

Disallow: /blog/


 

若是不想手動產出 robots.txt 檔案,可多利用 robots.txt 產製工具(robots.txt generator)來加快產出速度喔!

 

robots.txt 測試工具分享

已上線網站想查看 robots.txt 內容可直接在網址後方加入「/robots.txt」查看。若想測試 robots.txt 檔案,以下整理 2 個 robots.txt 的測試工具,幫助讀者們快速上手!

 

一、Google Search Console robots.txt 測試工具

在 Google Search Console 有提供一個官方的 robots.txt 測試工具,可用於編輯與提交 robots.txt 檔案。另外也提供檢查特定網址是否被爬蟲封鎖的搜尋欄位

robots.txt 測試工具_Google Search Console

 

二、Ranking SEO 網站健檢工具

Ranking 提供網站 SEO 健檢報告功能,針對 Google 演算法看重的各項指標提供評分與項目優化建議。其中就包含 robots.txt 的項目檢測,若網站中未有 robots.txt 檔案,也會顯示檢查結果並提示新增;另檢索與索引項目如 Sitemap、Meta robots 標籤(Meta noindex、Meta nofollow)也能一張表格確認。其他如網站安全性、使用體驗等指標也整合於同一個頁面,所有細節一次兼顧。

體驗 SEO 高效檢測:註冊 Ranking SEO 工具享有免費七天體驗!

robots.txt-測試工具_Ranking-SEO

 

重要比較資料:robots.txt vs Meta robots noindex

上面不斷提到的 Meta robots 同樣是在針對爬蟲的檢索索引進行部分處理,而究竟 Meta robots 與 robots.txt 究竟有何不同呢?此處我們以最容易和 robots.txt 混淆的 Meta robots noindex 標籤進行表格整理說明。

robots.txt noindex
主要功能 限制爬蟲瀏覽,進而有機會封鎖檢索 禁止索引,使設定的頁面不會出現於搜尋結果
設定方式 提交 robots.txt 文字檔於根目錄 在想要限制的頁面設定 HTML Meta 標籤

 

若想更了解關於 Meta robots 兩個標籤(noindex、nofollow)的比較,或其他 Meta 標籤的相關說明,歡迎參考以下兩篇文章進行更深入的探討:

➤ Meta robots 說明:【Meta Robots 總整理】透過 Noindex Nofollow 限制爬蟲,強化 SEO 失分漏洞!

➤ Meta 標籤全攻略:【HTML Meta Tags 攻略】掌握 Meta Title & Description,搶佔 SEO 高位!

關於 Ranking 小編:

期許用深入淺出的方式帶你進入 SEO 世界,提供實用性高的優質文章,簡化 SEO 複雜流程及技術,讓每個人都能快速理解 SEO 行銷,一起登上 Ranking 火箭讓排名再創高峰!※若有行銷相關問題或者業務合作歡迎隨時與我們聯繫!

其他人也看了...

想透過 SEO 提升品牌曝光度及網站流量,並獲得更多商機嗎?
SEO 專家|Ranking 提供全方位解決方案,讓你排名一飛沖天!

預約顧問諮詢

請您選擇感興趣的服務,並留下聯繫資訊,我們將於三個工作天內聯繫您,讓你品牌一躍上首頁!