北京pk10赛车开奖结果

 返回首頁 設為首頁              資源已找到,加載中...... 請稍等!          網站地圖google地圖百度地圖同行旅游RSS |

  資訊>|新聞|人物訪談|新手教程|網絡營銷|互聯網絡|站長故事|網站設計|網絡應用|

  分類>|百度推廣|谷歌推廣|騰訊推廣|必應推廣|雅虎|搜狗|搜索|炒作|軟文|博客|綜合|

  目錄>|推廣故事|域名空間|故事|編程|合作|休閑|人才|招聘|論壇|博客|站長|休閑|

>> | 設為首頁 | 加入收藏 |

淺析搜索蜘蛛是怎樣抓取網頁的
淺析搜索蜘蛛|是怎樣抓取網頁的
   點擊數:198  更新時間:2013-8-27 21:16:10

 搜索引擎面對的是互聯網萬億網頁,如何高效抓取這么多網頁到本地鏡像?這便是網絡爬蟲的工作。我們也叫它網絡蜘蛛,做為站長,我們每天都在與它親密接觸。

  一,爬蟲框架

  上圖是一個簡單的網絡爬蟲框架圖。種子URL入手,如圖所示,經過一步步的工作,最后將網頁入庫保存。當然,勤勞的蜘蛛可能需要做更多的工作,比如:網頁去重以及網頁反作弊等。

  也許,我們可以將網頁當作是蜘蛛的晚餐,晚餐包括:

  已下載的網頁。已經被蜘蛛抓取到的網頁內容,放在肚子里了。

  已過期網頁。蜘蛛每次抓取的網頁很多,有一些已經壞在肚子里了。

  待下載網頁。看到了食物,蜘蛛就要去抓取它。

  可知網頁。還沒被下載和發現,但蜘蛛能夠感覺到他們,早晚會去抓取它。

  不可知網頁。互聯網太大,很多頁面蜘蛛無法發現,可能永遠也找不到,這部份占比很高。

  通過以上劃分,我們可以很清楚的理解搜索引擎蜘蛛的工作及面臨的挑戰。大多數蜘蛛是按照這樣的框架去爬行。但也不完全一定,凡事總有特殊,根據職能的不同,蜘蛛系統存在一些差異。

  二,爬蟲類型

  1,批量型蜘蛛。

  這類蜘蛛有明確的抓取范圍和目標,當蜘蛛完成目標和任務后就停止抓取。具體目標是什么?可能是抓取網頁數量,網頁大小,抓取時間等。

  2,增量型蜘蛛

  這類蜘蛛和批量型蜘蛛不同,他們會持續不斷的抓取,對于抓取到的網頁會定期抓取更新。因為互聯網中的網頁是隨時處于更新狀態中,增量型蜘蛛需要能夠反映出這種更新。

  3,垂直性蜘蛛

  這種蜘蛛只關注特定主題或者特定的行業網頁。以健康網站為例子,這類專門的蜘蛛會只抓取健康相關主題,其它主題內容的網頁則不抓取。考驗這只蜘蛛的難點是如何去更精準的識別內容所屬于行業。目前來看,很多垂直類行業網站是需要這種蜘蛛去抓取的。

  三,抓取策略

  蜘 蛛通過種子URL進行爬行拓展,列出大量待抓取URL。但是待抓取URL數量龐大,蜘蛛如何確定抓取順序先后呢?蜘蛛抓取的策略有很多種,但最終目的是一 個:優先抓取重要的網頁。評價頁面是否重要,蜘蛛會根據頁面內容原創程度,鏈接權重分析等眾多方式來進行計算。比較有代表性的抓取策略如下:

  1,寬度優先策略

  寬度優先是指:蜘蛛在抓取一個網頁后,繼續將該網頁所包含的其它頁面按順序進行進一步抓取。這種思想看似簡單,其實卻很實用。因為大多數網頁都是按優先級進行排序,重要的頁面會優先在頁面上進行推薦。

  2,PageRank策略

  PageRank是一種非常著名的鏈接分析方法,主要是用來衡量網頁權重。如谷歌的PR,就是典型的PageRank算法。通過PageRank算法我們可以找出哪些頁面是更重要的,然后蜘蛛優先去抓取這些重要性的頁面。

  3,大站優先策略

  這個很容易理解,大網站通常擁有更多的內容頁面,并且質量也會更高。蜘蛛會先分析網站歸類與屬性。如果這個網站已經收錄很多,或者在搜索引擎系統中權重很高,則優先考慮收錄。

  四,網頁更新

  互 聯網中的頁面大多會保持更新,這樣就要求蜘蛛所存儲的頁面也能及時更新,保持一致性。打個比喻:一個網頁之前排名很好,如果頁面已經被刪,卻還有排名,那 體驗就很不好。因此搜索引擎需要隨時了解這些并更新頁面,將最新的頁面提供給用戶。常用的網頁更新策略在三種:歷史參考策略,用戶體驗策略。聚類抽樣策 略。

  1,歷史參考策略

  這是建立在一種假設基礎上的更新策略。比如,若你的網頁之前按規律一直更新,那搜索引擎也認為你的頁面將來也會經常更新,蜘蛛也會按這個規律定期來網站進行抓取網頁。這也是為什么點水一直強調網站內容需要有規律更新的原因。

  2,用戶體驗策略

  一 般來說,用戶只會查看搜索結果前三頁的內容,后面的頁面很少有人去看。用戶體驗策略就是搜索引擎根據用戶的這個特點來進行更新。例如,一個網頁可能發布時 間較早,一段時間沒更新,但是用戶依然覺得有用,點擊瀏覽它,那么搜索引擎先不去更新這些過時的網頁也是可以的。這就是為什么搜索結果中,并不一定最新的 頁面排名一定靠前的原因。排名更多的是取決于這個頁面的質量,而完全不是更新時間先后。

  3,聚類抽樣策略

  上 兩種更新策略主要是參考了網頁的歷史信息。但存儲大量歷史信息對搜索引擎來說是一種負擔,另外如果收錄的是新網頁則是沒有歷史信息可以參考的,那怎么辦? 聚類抽樣策略是指:根據網頁所展現出來的一些屬性,來將很多相似網頁進行歸類,被歸類的頁面按照相同的規律去進行更新。

  從了解搜索引擎 蜘 蛛工作原理的過程中,我們會知道:網站內容之間的相關性,網站與網頁內容更新規律,網頁上鏈接分布以及網站權重高低等因素都會影響到蜘蛛的抓取效率。知已 知彼,讓蜘蛛來得更猛烈些吧!


  • 上一篇文章:

  • 下一篇文章:
  • 【字體:
      網友評論:(只顯示最新10條。評論內容只代表網友觀點,與本站立場無關!)
    相 關 文 章
    沒有相關文章
    最 新 推 薦

    Copyright © 2005 - 2011 建站流程網 chczz.com All rights reserved. 聯系郵箱:chczzcom#163.com
    中國信息產業部備案編號:渝ICP備09029879號-2
    本站全部資源來自于互聯網,只供學習,不得用于商業,如有侵犯版權請聯系告知,來信請務必附上版權申明及相關證據,我們將第一時間刪除.

    北京pk10赛车开奖结果 老重庆时时彩开奖网站 二八杠生死门演示 快乐时时是哪里的 孤仙时时彩计划软件 360江西时时走势图 冠亚和值计划软件下载 北京pk10天天赢通计划 百人棋牌aaa 三分彩稳赚技巧 网站赌龙虎庄家控制 秒速时时彩稳赚技巧大小 推牌九游戏单机下载 猜大小怎么玩 北京塞车免费计划软件 高频彩高手计划 江苏时时网址