提升SEO搜索引擎蜘蛛抓取教程 |
作者:本站 發(fā)布時(shí)間:2022-08-11 瀏覽:568次 |
在搜索引擎系統(tǒng)中又被稱之為“蜘蛛”或“機(jī)器人”,是用來爬行和訪問頁面的程序。用來抓取網(wǎng)站的重要信息。
一. 爬行原理 搜索引擎蜘蛛訪問到網(wǎng)頁的過程,就好比用戶使用的瀏覽器。 搜索引擎蜘蛛向頁面發(fā)出訪問請(qǐng)求,該頁面的服務(wù)器則返回該頁面的HTML代碼。 搜索引擎蜘蛛將收到的HTML代碼存入搜索引擎的原始頁面數(shù)據(jù)庫中。 二.如何爬行 為了提高搜索引擎蜘蛛的工作效率,通常采用多個(gè)蜘蛛并發(fā)分布爬行。 同時(shí),分布爬行還分為兩種模式:深度優(yōu)先和廣度優(yōu)先。 深度優(yōu)先:沿著發(fā)現(xiàn)的鏈接一直爬行,直到?jīng)]有任何鏈接。 廣度優(yōu)先:先這一頁面上的所有鏈接爬行完畢之后,才會(huì)沿著第二層頁面繼續(xù)這樣爬行。 三. 蜘蛛必遵守的協(xié)議 搜索引擎蜘蛛在訪問網(wǎng)站之前,都會(huì)先訪問網(wǎng)站根目錄下的robots.txt文件。 搜索引擎蜘蛛不會(huì)去抓取robots.txt文件中禁止爬行的文件或目錄。 四. 常見搜索引擎蜘蛛 百度蜘蛛:Baiduspider 谷歌蜘蛛:Googlebot 360蜘蛛:360Spider SOSO蜘蛛:Sosospider 有道蜘蛛:YoudaoBot,YodaoBot 搜狗蜘蛛:Sogou News Spider 必應(yīng)蜘蛛:bingbot Alexa蜘蛛:ia_archiver SEO優(yōu)化內(nèi)鏈如何布局提升蜘蛛抓取 SEO優(yōu)化中如何有效的布局內(nèi)鏈,讓蜘蛛抓取 SEO優(yōu)化,那么網(wǎng)站優(yōu)化時(shí),我們要如何合理分析內(nèi)外鏈呢?關(guān)于內(nèi)鏈,我們需要檢查的是seo:seo.ee ,可以檢測(cè)看看: 1、內(nèi)頁多關(guān)鍵詞指向首頁 現(xiàn)在還有很多網(wǎng)站在內(nèi)容頁搞了好多關(guān)鍵詞,但是指向的全都是首頁,這個(gè)小技巧在前幾年還是有些用的,但是現(xiàn)在算是作弊的行為,切記。 2、是否有相關(guān)推薦 每個(gè)頁面是否有推薦跟內(nèi)容相關(guān)的內(nèi)部指向鏈接,這個(gè)很重要,對(duì)用戶,對(duì)蜘蛛都是非常有幫助的。 3、每個(gè)頁面是否能鏈接到別的相關(guān)頁面 內(nèi)頁要做相關(guān)的推薦,還有欄目頁、專題頁、首頁都是一樣的,只不過要從不同的定位角度來指向而已。 那么如何檢查外鏈呢?一般常用兩種方法: 1、通過domain指令 可以找出鏈接你的網(wǎng)站是哪些,檢查一下是否有和不良的網(wǎng)站出現(xiàn)在一起,如果有要盡快處理掉,不然也是會(huì)有影響的。 2、通過友情鏈接 查看友情鏈接是否正常,比如你鏈接了別人,別人卻把你的鏈接給撤銷了,或者別人的網(wǎng)站打不開了等等之類的情況,需要及時(shí)的處理。 手機(jī)網(wǎng)站圖片如何抓取 總結(jié)出了以下六種方法,協(xié)助我們優(yōu)化網(wǎng)站和手機(jī)端的圖片,以達(dá)到優(yōu)化友好,迅速被錄入的作用。 1、不要盜用圖片盡量原創(chuàng) 盡量自己做圖片,有很多免費(fèi)的圖片素材,我們可以通過拼接,做出我們需要的圖片。 在平時(shí)工作的時(shí)候,發(fā)現(xiàn)和自己網(wǎng)站相關(guān)的圖片可以先保存下來,在本地做出分類和標(biāo)記。 網(wǎng)站需要圖片的時(shí)候,看看相關(guān)的圖片,自己著手做一個(gè)圖片。這是一個(gè)長期積累的過程,隨之時(shí)間的增加,自己的素材量也會(huì)越來越大。熟練了再做圖片就得心應(yīng)手了。 2、網(wǎng)站圖片保存路徑 這個(gè)問題很多站長都沒有注意,圖片在傳到到網(wǎng)站的時(shí)候,盡量把圖片保存在一個(gè)目錄下面, 或者根據(jù)網(wǎng)站欄目做好相應(yīng)的圖片目錄,上傳的時(shí)候路徑要相對(duì)固定,方便蜘蛛抓取,蜘蛛在訪問到這個(gè)目錄的時(shí)候就會(huì)“知道”這個(gè)目錄里面保存的是圖片; 圖片文件命名最好使用一些有規(guī)律的或者意義的方法,可以使用時(shí)間、欄目名稱或者網(wǎng)站名稱來命名。 其實(shí)這樣是培養(yǎng)搜索引擎蜘蛛抓取習(xí)慣,方便將來更快的識(shí)別網(wǎng)站圖片內(nèi)容。讓蜘蛛抓的順心了,網(wǎng)站被收錄的幾率就增加了,何樂而不為呢! 3、圖片周圍要有相關(guān)文字 網(wǎng)站圖片是能把信息直接呈現(xiàn)給用戶一個(gè)方法,搜索引擎在抓取網(wǎng)站內(nèi)容的時(shí)候,也會(huì)檢測(cè)這篇文章是否有配圖、視頻或者表格等等, 這些都是可以增加文章分?jǐn)?shù)值的元素,其他的幾個(gè)形式暫時(shí)不表,這里我們只說說關(guān)于圖片周圍相關(guān)文字的介紹。 首先圖片周邊文字要與圖片本身內(nèi)容相符,例如你的文章說的是做網(wǎng)站優(yōu)化,里面配圖是一道菜譜的圖片,這不是掛羊頭賣狗肉么? 用戶的訪問感會(huì)極差,搜索引擎通過相關(guān)算法識(shí)別這張圖片以后,也會(huì)覺得圖文不符,給你差評(píng)哦。 所以,每篇文章最少要配一張相應(yīng)的圖片,而且在圖片的周圍要出現(xiàn)和你網(wǎng)站標(biāo)題相關(guān)的內(nèi)容。不但能幫助搜索引擎理解圖片,還可以增加文章的可讀性、用戶體驗(yàn)友好度以及相關(guān)性。 4、圖片添加alt、title標(biāo)簽 許多站長在添加網(wǎng)站圖片時(shí)可能沒有留意這些細(xì)節(jié),有的可能覺得麻煩,希望大家千萬別有這種想法,這是大錯(cuò)特錯(cuò)的。 搜索引擎抓取網(wǎng)站圖片的時(shí)候,atl標(biāo)簽是它首先抓取的,也是識(shí)別圖片內(nèi)容最重要的核心因素之一,圖片的alt屬性是直接告訴搜索引擎這是啥網(wǎng)站圖片,以及這張要表達(dá)什么意思; title標(biāo)簽是用戶指向這張圖片的時(shí)候,會(huì)顯示的提示內(nèi)容,這是增加用戶體驗(yàn)度和增加網(wǎng)站關(guān)鍵詞的一個(gè)小技巧。 alt和title標(biāo)簽 還有就是這兩個(gè)屬性,會(huì)給有閱讀障礙的訪問者提供訪問的便利,例如:有盲人在訪問你網(wǎng)站的時(shí)候,他看不到屏幕上的內(nèi)容,可能是通過讀屏軟件來閱讀的,如果有alt屬性,軟件會(huì)直接讀出alt屬性里的文字,給他們的訪問提供方便。 5、圖片的大小和分辨率 盡管兩者看起來有些相同,但還是有很大的差別,相同大小的圖片,分辨率更高的話,網(wǎng)站最終體積也會(huì)越大。這一點(diǎn)大家要搞清楚。 網(wǎng)站的上的圖片,一直以來都提倡用盡量小的圖片,去最大化呈現(xiàn)內(nèi)容。為什么要這樣呢? 因?yàn)樾〕叽绲膱D片會(huì)加載的更快,不會(huì)讓訪問者等待太久,特別是手機(jī)訪問的時(shí)候,由于手機(jī)上網(wǎng)速度和流量的限制,用戶更愿意訪問能立即打開的頁面,小尺寸圖片就更有優(yōu)勢(shì)了。 在這里我們盡量做好平衡,在圖片不失真的情況下,尺寸最好盡量的小。 現(xiàn)在有很多在線給圖片瘦身的工具,各位站長可以去嘗試一下,把網(wǎng)站的圖片適當(dāng)?shù)膲嚎s一下,一方面可以減少你服務(wù)器帶寬的壓力,另外還能給用戶有流暢的體驗(yàn)。 6、手機(jī)端自動(dòng)適應(yīng) 很多站長都遇到過網(wǎng)站在電腦訪問圖片顯示很正常,可是從手機(jī)端就會(huì)出現(xiàn)錯(cuò)位等等情況,這就是大尺寸的圖片給不同尺寸的終端造成錯(cuò)位和顯示不全的情況。 其實(shí)這個(gè)問題很好解決,在添加圖片的時(shí)候?qū)捀咦詈貌灰褂媒^對(duì)大小,使用百分比就解決了。 具體說,CSS代碼不能指定像素寬度:width:xxx px;只能指定百分比寬度:width: xx%;或者width:auto就可以了。 這樣做的目的也是為了讓百度的移動(dòng)蜘蛛抓取的時(shí)候有個(gè)良好的體驗(yàn),這也是為了更符合百度移動(dòng)落地頁體驗(yàn)。 如何提高搜索引擎抓取頻率? 1、網(wǎng)站內(nèi)容更新 搜索引擎抓取內(nèi)容,只是針對(duì)個(gè)別頁面,而不是全部的頁面,這也是搜索引擎對(duì)網(wǎng)頁的快照更新時(shí)間變短的原因。 比如說經(jīng)常更新的頁面,快照也會(huì)經(jīng)常對(duì)其進(jìn)行爬取,從而可以及時(shí)發(fā)現(xiàn)新內(nèi)容與鏈接,刪除不存在的信息,所以站長一定要長期堅(jiān)持更新網(wǎng)頁,才能使搜索引擎爬蟲穩(wěn)定前來抓取。 2、網(wǎng)站框架設(shè)計(jì) 對(duì)于網(wǎng)站的內(nèi)部框架的設(shè)計(jì),是要從很多方面進(jìn)行的,其中,代碼需要盡量簡明清晰,代碼過多容易導(dǎo)致頁面體積過大,影響網(wǎng)絡(luò)爬蟲的抓取速度。 在抓取網(wǎng)站時(shí),同時(shí)網(wǎng)頁flash圖片盡量少一些,flash格式的內(nèi)容影響蜘蛛抓取,對(duì)于新網(wǎng)站來說,盡量選用偽靜態(tài)形式的URL,這樣可以讓整個(gè)網(wǎng)站的頁面都容易被抓取。 在設(shè)計(jì)時(shí)對(duì)于錨文本文字要分布合理,不能全寫關(guān)鍵詞,要適當(dāng)?shù)脑黾右恍╅L尾詞鏈接。對(duì)于內(nèi)部鏈接設(shè)計(jì)也要通暢,方便權(quán)重傳遞。 3、網(wǎng)站導(dǎo)航設(shè)計(jì) 網(wǎng)站面包屑導(dǎo)航是網(wǎng)站設(shè)計(jì)的時(shí)候很多企業(yè)都會(huì)忽視的一個(gè)地方,導(dǎo)航是蜘蛛抓取的關(guān)鍵,如果網(wǎng)站導(dǎo)航不清晰,那么搜索引擎在抓取時(shí)就容易迷路,所以導(dǎo)航一定要合理的進(jìn)行設(shè)計(jì)。 這里順便提及錨文本建設(shè),站內(nèi)錨文本有利于網(wǎng)絡(luò)爬蟲發(fā)現(xiàn)和抓取更多站內(nèi)網(wǎng)頁,但是如果錨文本太多又容易被看成是刻意的調(diào)整,在設(shè)計(jì)時(shí)要把握錨文本的數(shù)量。 4、穩(wěn)定更新頻率 除了首頁的設(shè)計(jì)之外,網(wǎng)站還有其他頁面。爬蟲抓取時(shí)不會(huì)對(duì)網(wǎng)站上的全部網(wǎng)頁都建立索引,在它們找到重要的頁面之前,可能已經(jīng)抓取了足夠多的網(wǎng)頁離開了。 所以要保持保持一定的更新頻率,更新頻繁的頁面能輕易被抓取,因此能自動(dòng)抓取數(shù)量很多的頁面,同時(shí)我們要注意網(wǎng)站層級(jí)的設(shè)計(jì),不能太多,不然也不利于網(wǎng)站抓取。
|