SEO 操作上的重複內容是什麼?
「重複內容(Duplicate Content)」在 SEO 行銷領域是指在同網站不同頁面或不同網站上,存在著相同或非常相似的內容,而因為對 Google 來說「不同網址就是不同頁面」,所以一旦出現不同的網址、頁面內容卻高度雷同時,就有可能被 Google 判定為重複內容。
雖然在 2008 年時 Google 曾表示除非重複內容的用意是為了欺騙用戶、操控搜尋引擎的結果,不然不會對網站進行懲罰,但重複內容對 SEO 操作仍會產生負面影響。
為什麼重複內容會影響 SEO 操作?
首先,搜尋引擎的目標是「提供多樣性的搜索結果和最佳的用戶體驗」,根據這個原則,我們可以得知重複內容對 SEO 操作的負面影響:
- 網站排名下降甚至被懲罰
- 分散頁面權重
- 浪費爬取預算
A. 網站排名下降甚至被懲罰
曾任職 Google 的資深工程師 Matt Cutts 在 2013 年表示,經由 Google 爬蟲程式檢視所有網路上的頁面後,發現約有25%~30%的網頁內容是重複的。
那麼該如何處置重複內容的網頁呢?Google 會透過演算機制分析這些有大量重複內容的網頁,比較網域權威值、網站可信度、網站連結數量等要素,從中判斷出最能滿足使用者需求、最具原創性的網頁,讓該網頁顯示在搜尋結果頁(SERP), 而其餘重複內容的網頁則會被隱蔽。
特別需要注意的是,Google 是用演算法中的一些量化數據判斷「誰才是原創內容」,所以當你的頁面被抄襲,但抄襲者的網站權重、連結數量、可信度更勝於你的網站,那麼 Google 極有可能將抄襲者視為原創內容,造成你的網站排名下降,最糟糕的狀況甚至可能因此被處以網站下架的懲罰,這對 SEO 操作來說是非常嚴重的傷害。
延伸閱讀:如何保護網站不受惡意抄襲攻擊?看看頁庫存檔怎麼幫助你!
B. 分散頁面權重
當搜索引擎發現同個網站內有多個內容相似的頁面時可能會感到困惑,導致在排名時因為不確定何者為最主要內容,而讓每個網頁都獲得一點分數,造成頁面權重被分散。
舉個例子來說,我們原本想要操作、期望有良好排名表現的是 A 頁面,但現在搜索引擎發現了有其他相似的 B 頁面、C 頁面,在分不清楚哪個才是主要頁面的情況下,可能會將原本應該要給 A 頁面的頁面權重分散至 B 頁面 跟 C 頁面,導致同網站的頁面彼此競爭排名,以至於 A 頁面在搜索引擎中的排名下降、操作效益不如預期,甚至在某些目標關鍵字上是以 B 頁面或 C 頁面出現在搜尋結果頁上。
C. 浪費爬取預算
「爬取預算 Crawl Budget」指的是搜尋引擎爬蟲在爬取網站所花費的時間和資源,而每個網站被分配到的爬取預算是有限的。也就是說,如果網站上有過多雷同的內容,爬蟲會需要耗費更多的資源在這些內容的釐清和歸類,進而影響到其他重要頁面的爬取頻率。
當爬蟲長期在處理這些重複內容,便會認定這個網站的內容品質不佳並將低爬取預算,造成網站被爬取的機會逐漸減少,自然無法取得好的排名表現。從這裡就可以發現,不管是有意還是無心造成的重複內容都會影響到 SEO 的操作成效,必須妥善處理。
什麼情況是重複內容?6 種常見重複內容情境
不只網站內容被抄襲會產生重複內容的問題,還有很多狀況會導致重複內容的發生,實際上常發生的情形有以下 6 種:
- HTTP / HTTPS 與 www / no-www
- 網址參數問題
- 相同網頁設置在不同裝置類型
- 電商網站的產品頁
- 聯合發布新聞稿
- 網頁內容被抄襲
A. HTTP/HTTPS 與 www / no-www
HTTPS 是有別於 HTTP 傳輸協定的加密版本,是提供對網站伺服器的身分認證,用以保護交換資料的隱私與完整性。若你的網站有安裝 HTTPS 版本,卻沒有將舊版本的 HTTP 網頁轉址導向新的 HTTPS 版本,讓兩個網址都能進入網站,便會讓 Google 認定兩個版本有重複內容的問題:
- HTTP:http://domain.com/
- HTTPS:https://domain.com/
其他類似的常見狀況還有 www / no-www,「www」全名為「World Wide Web 全球資訊網」的縮寫,是一種子網域名稱。有部分品牌網站會為了凸顯品牌或是希望網址簡潔一些,會選用 no-www 的網址版本,將子網域名稱直接改為品牌名。
然而此時若沒有多加留意,可能會因伺服器或 DNS 的預設導致兩個網址同時存在並指向同一個主機 IP 位置,此時便會像上面的例子一樣發生兩種網址皆可進入網站的情況,造成重複內容的發生:
- www:https://www.domain.com/
- no-www:https://domain.com/
B. 網址參數問題
動態網址是指在網頁網址中包含了一些可變動的參數,這些參數可以用來動態生成或呈現網頁的內容,通常出現在網址的問號(?)後面,多個參數之間用與符號(&)分隔。動態網址雖然可以根據特定條件或用戶輸入的不同而產生不同的內容,但卻可能發生頁面內容完全相同,網址卻不同的情形:
「cid」的數值改變:
- https://domain.com/news/sample-page?cid=5&id=100
- https://domain.com/news/sample-page?cid=10&id=100
「cid」與「id」的位置變換:
- https://domain.com/news/sample-page?cid=5&id=100
- https://domain.com/news/sample-page?id=100&cid=5
以上述例子來說,不論「cid」的數值如何改變,或是「cid」與「id」的位置變換,都進入到相同的頁面,那麼根據我們文章一開始提到的 Google 運作邏輯,這些因為數值和排序變化而產生的網址對 Google 來說都是獨立頁面,卻都導向同樣的網頁內容,即會被判定為重複內容。
C. 相同網頁設置在不同裝置類型
早期還沒有 RWD(響應式網頁設計)時,為了在不同載具、裝置上都能順利瀏覽頁面,會針對不同的裝置製作不同的網站:
- 電腦版網頁:https://www.domain.com/
- 手機板網頁:https://m.domain.com/
現在雖然多數網站皆採用 RWD,但仍然有部分網站採用這種針對不同載具製作不同網站的方式,尤其是資訊量非常龐大的網站,例如:momo購物網,這類因載具不同而有不同網址,內容卻高度相似,也會讓 Google 認定是重複內容。
延伸閱讀:RWD 響應式網站是什麼?如何設計符合使用者需求的網站?
D. 電商網站的產品頁
電商網站的單一商品頁面,因不同規格或配色而分成不同商品頁時:
- https://domain.com/products/wallet-white
- https://domain.com/products/wallet-black
以上述舉例來說,相同產品但由於顏色不同而有不同網址,但其實產品頁面內容完全相同或是極為相似,就會讓 Google 判定是重複內容的網頁。
E. 聯合發布新聞稿
當品牌串聯其網路媒體一同發佈新聞稿時,Google 會偵測到同時間內有大量相似的文章出現,而將其判斷為重複內容。類似的概念還包含:同一篇文章未經修改就投稿至其他平台、其他平台轉載我們網頁上的內容,這些都會被視為重複內容。
F. 網頁內容被抄襲
抄襲是絕對會被視為重複內容,文章上半段已經說明其會對 SEO 帶來的負面影響,這邊就不再贅述。
而重複內容主要會以 Canonical URL 語法和 301 轉址方式來處理,接下來的文章將為大家詳細解說這兩種方法的原理和作法。
重複內容的 2 大解決方法
A. 設置 Canonical 標準網址
Canonical URL 標準網址是一種 HTML 語法標籤,主要用來解決重複內容的狀況,讓搜尋引擎爬蟲知道哪一個網址才是最具有指標性的網址。
當我們擁有網站的管理權限,通常就是重複內容發生在我們自己網站中時,可以用設定 Canonical URL 的方式向搜尋引擎宣告哪個頁面才是我們的標準網址;若你擁有多個重複網頁的管理權限,像是同一個集團下的不同事業體網站有重複內容情況時,也可以透過設置 Canonicl URL 向搜尋引擎說明不要索引設置語法的網頁,應去索引 Canonical URL 指向的那個網頁。
而在實務上,會使用到 Canonical Tag 的客戶類型電商平台為主,因為電商網站常有同一品項卻因規格不同而各自有獨立網頁的情況,此時會需要用到 Canonical 標籤宣告標準網址,幫助集中頁面權重。
舉例來說,我們現在有個產品有黑色、白色、灰色三種款式,並且根據不同顏色款式有不同頁面,這時候如果我們將黑色款式作為標準網址,就會需要在白色款式、灰色款式的頁面中設置 Canonical 指向黑色款式,這樣搜尋引擎就會知道這三個款式是同樣的產品,並且把頁面權重都集中到黑色款式。
詳細的 Canonical URL 語法設置與注意事項,可以參考 Ranking 獨立撰寫的 Canonical 標準網址設定教學文章!
B. 設置 301 轉址
另一個解決重複內容的手法是「301 Redirect (轉址)」,是透過將就網址直接導向新網址的操作方法,但需要特別留意與 Canonical 的差異:
- 301 轉址等於是告訴 Google「舊址已經永久搬家到新址」,因此在設定 301 轉址之後,舊網址將直接被新網址取代,使用者將不會在任何搜尋結果頁看到舊有的頁面。
- Canonical URL 則是宣告設置網頁優先出現在搜尋引擎結果上,其他相關網頁並不會因為設定了 Canonical 標籤而消失。
從上述差異可以發現 301 轉址和 Canonical 標籤的使用情境不同,而在實務上我們會以「頁面是否有保留的必要性」為依據,判斷優先使用 Canonical 或 301 轉址處理重複頁面,以下我們將情境與對應處理方式統整為表格提供大家做參考:
重複內容的情況 |
解決方式 |
|
發生於自己網域內的重複內容情況 |
HTTP / HTTPS |
設定 301 轉址至選定版本 以HTTP / HTTPS 為例,即為將 HTTP 版本設定 301 轉址至 HTTPS 版本 |
網址參數 |
在非主要頁面設置 <link rel=”canonical” herf=”http://(標準網址的頁面)/”> |
|
電商網站的產品頁 |
||
相同網頁設置在不同裝置類型 |
以桌電與行動裝置 2 種版本為例: 在桌電版本的網頁中設置 <link rel=”canonical” herf=”http://(要設置的網頁)/”> 行動裝置版本設置: |
|
跨網域的重複內容情況 |
聯合發布新聞稿 |
因為無法取得對方網站後台,故僅能透過Canonical 標籤將標準網址設定為自家網站,避免商業合作瓜分自家網站的頁面權重 <link rel=”canonical” herf=”http://(本頁網址)/”> |
網頁內容被抄襲 |
面對抄襲甚至是惡意攻擊,我們可先透過 Canonical 宣告我們的網站是標準網址 <link rel=”canonical” herf=”http://(本頁網址)/”> 並進一步向 Google 舉報不正當的內容 |
如何檢測是否有重複內容的問題?
常見的檢測重複內容工具有以下幾種:
- Ahrefs
- Screaming Frog
- Google Search Console
SEO 操作人員經常使用爬蟲工具找查找網站中是否有重複內容的問題,常用的爬蟲工具,如:Ahrefs、Screaming Frog,透過爬蟲工具可以更有效率地檢查標題、內容和網址等元素,確認網站中是否有重複內容的情形。
同時,可以搭配 Google Search Console 涵蓋範圍的排除報表,確認是否有「這是重複網頁;使用者未選取標準網頁」的項目,如果有出現這個項目就代表 Google 認為你的網頁有重複內容的問題。
延伸閱讀:SEO 軟體推薦|4 大功能介紹、超過 40 種 SEO 工具評比!
SEO 操作問題找 Ranking!你的 SEO 救星
SEO 行銷的專家品牌 Ranking,以「行銷科技創新、簡單好上手、排名有感成長」3大訴求出發,幫助台灣中小企業應用 SEO 行銷,推出 SEO 網站健檢服務,協助客戶改善網站的搜尋引擎排名。
Ranking 提供的服務
SEO 專案服務幫助企業客戶完整健檢網站品質,分析、規劃 SEO 行銷策略,透過內容分析、網站安全性、網站檢索與索引、網站使用體驗、搜尋與社群預覽等6大方針執行,改善網站不足的部分。Ranking 更提出 6 個月讓客戶網站出現在 Google 搜尋首頁的服務保證,讓企業客戶投入精準預算,便能換回優質成效,增加品牌曝光度!