通常我們會將「檢索預算」視為無法控制的事情,甚至更貼切的來說,根本完全無法控制檢索預算才是正常的。然而隨著我們的網站規模擴大,檢索預算將會是我們在搜尋引擎表現的主要影響因素。在本文中,我們將討論檢索預算的重要性,並分享一些有關管理網站檢索預算的實用技巧。
什麼是檢索預算Crawl Budget?
「檢索預算」是Google檢索您的網站的資源數量。可以理解為,檢索預算等於爬蟲每天檢索的頁面數,但這並不完全正確,有些頁面比其他頁面消耗更多的資源,因此假設檢索預算保持不變,檢索頁面的數量也可能有所不同。
我們先來了解當Google在分配檢索預算時,通常會著重於四件事:
- 網站的熱門程度
- 網站的更新頻率
- 網站總體頁面數
- 網站協助搜尋引擎爬蟲的能力
這是一套複雜的演算機制,但我們仍然可以影響、管理、協助Google檢索網站時的方式。
為什麼檢索預算很重要?
檢索預算影響了我們的網頁在消費者搜尋時顯示的速度,這裡的主要問題是檢索預算和網站的更新率之間可能不匹配。如果發生這種情況,您將在創建或更新頁面與在搜尋中顯示頁面之間經歷越來越大的滯後。
沒有足夠的檢索預算的第一個可能原因是Google認為我們的網站在網路世界中不夠重要,在他的眼中,可能是無用的內容,或者是提供了非常差的用戶體驗,又或者兩者兼備。在這種情況下,除了發布更好的內容並等待聲譽提高之外,沒有更好的方法!
沒有足夠的檢索預算的第二個可能原因是,網站內充滿了爬蟲陷阱!有些技術問題可能會讓搜尋引擎爬蟲陷入困境,例如找不到網站的頁面或誘導他不要來訪問網站。在這種情況下,我們應該要採取一些方法來改善檢索問題,我們後續進一步討論。
您應該擔心自己的檢索預算嗎?
如果您統籌的是屬於中大型網站,頁面數量龐大且更新頻率較高(每週一次甚至每天一次),則檢索預算將會是您的重要課題,若是檢索預算短缺會導致常態性的索引停滯(檢索與索引的區別,我們會專門做一篇文章來為大家講解),對於網站管理者來說將會是一種災難。
而當您營運的是一個新的網站或將舊網站改版時,爬蟲對於網站的不熟悉將會導致檢索預算會在短期內頻繁的改變,因此您也應該稍加關注這個議題。不過即使您沒有去操作,以現在Google的爬蟲技術,檢索預算自動會緩慢地趨於穩定。
無論網站量體或大或小,至少作一次可能的檢索問題盤點,特別當您維護的是大型網站,請立即進行盤點作業。
如何優化您的檢索預算?
您應該(或不應)做很多事情來鼓勵搜尋蜘蛛佔用您網站的更多頁面,並且更頻繁地這樣做。這是一個用於最大程度地提高檢索預算能力的操作列表:
1.將Sitemap提交到Search Console
Sitemap是一種專門給搜尋引擎看的文件,主要提供爬蟲您要在搜尋引擎中進行檢索和建立索引的所有頁面。
借助Sitemap的效果, Google可以確切地知道網站規模有多大,以及應該對哪些頁面進行索引。甚至可以告訴Google每個頁面的優先級、更新頻率…等。利用所有可用信息,Google可以為您的網站設計最合適的檢索預算哦!
Conception官網的Sitemap檔案
將Sitemap提交至Google Search Console
2.解決檢索衝突
一個常見的檢索問題是Google認為需要檢索該頁面,但卻無法訪問該頁面,這些混雜的信號會迫使爬蟲困惑,導致浪費了檢索預算。要解決這些問題的最佳方法是在Google Search Console中查看 涵蓋範圍>錯誤 報告,可以最快速的找出檢索衝突頁面,並彙報錯誤數量、錯誤類型以及受影響的頁面列表:
3.隱藏不必要的資源
主動告訴Google忽略不必要的資源,可以節省檢索預算的大部分費用,像是GIF、影像和圖像檔可能會佔用大量內存,但這些類型的檔案通常用於裝飾或娛樂,對於爬蟲理解頁面內容可能並不重要。
要阻止Google檢索這些不必要的資源,請使用robots.txt文件禁止(dissallow)它們。
4.避免異常轉址
如果大量出現301和302的轉址次數,搜尋引擎將會判斷為異常的轉址情形,進而停止追蹤檢索該網頁,而這其中每個轉址的URL都浪費了檢索預算的,建議僅在絕對必要時,才使轉址連續使用兩次。
5.解決重複的內容問題
兩個或兩個以上具有相似內容的網頁是搜尋引擎的大忌,發生這種情況可能有多種原因,動態URL是其中之一,另外、www / non-www、http / https、抄襲內容…等,重複內容的問題將會浪費兩倍的檢索預算卻只獲得相同的內容,因此僅有一個競爭索引排名的機會,等於浪費了整整一個單位的檢索預算!
解決重複內容問題的方法,首先必須找到重複的頁面,可以透過標題清單,能夠快速的盤點具有相同主題的頁面。如果確認了任何確實相似的頁面,則必須確定哪個是主要頁面、哪個是重複頁面,接著在重複的頁面,將canonical代碼添加到<head>當中:
<link rel =“ canonical” href =“ https://example.com/主要頁面” />
這樣爬蟲就會忽略重複的頁面,而將檢索預算放在主頁咯。
6.優化內部連結結構
儘管Google表示內部鏈接與您的檢索預算沒有直接關係,但直接從您的首頁鏈接的頁面可能被認為更重要,而且檢索頻率也更高,因此通常建議,網站的任何頁面的距離保持不超過4層。
Bonus:請求索引(index)
如果您剛剛發布或更新了一個重要的網頁,已經等不及Google來檢索,可以採用Google Search Console的請求索引功能來加速哦!
即使已被索引,但如果頁面有更新過,還是可以再次提出要求的。
總結一下
介紹到這邊,相信大家都對於檢索預算有了基礎的認識,當您的網頁做好了,是時候到地窖去做蜘蛛狩獵咯!