专注于网站建设和搭建网络营销体系
商视互联,北京做网站公司
北京做网站,商视互联 您的位置:网站首页 > 商视动态 > 网站优化 > 正文
蜘蛛爬取原理以及爬取情况介绍
作者:商视互联   来源:原创   日期:2011/11/26 22:26:05   热度:℃   [ 标签:蜘蛛爬取原理 蜘蛛爬取情况 ]

常用搜索引擎蜘蛛名称:
  百度的蜘蛛:baiduspider
  谷歌的蜘蛛:Googlebot
  雅虎的蜘蛛:Mozilla
  微软bing的蜘蛛:msnbot
  soso的蜘蛛:sosospider
  蜘蛛通过什么办法来收录我的网页?又是通过什么来抓取整个网站的网页的?
  1、链接  2、把网站提交给搜索引擎  发外链引导蜘蛛。
  爬取方式:
  爬行爬取, 预处理
  蜘蛛爬取网的方式:深度优先 –直捣黄龙
  深度优先
  广度优先:先爬去所有的目录,然后再分别爬取内容:横扫千军
  (一)爬取原理
  深度优先:蜘蛛沿着发现的链接一直向前爬行,知道最前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
  广度优先:蜘蛛在同一个页面上发现多个链接的时候,不是顺着一个链接一直向前爬,而是把页面上所有的第一层链接都爬取一遍,然后再沿着第二层页面上的链接爬向第三层也页面
  理论上搜索引擎可以爬取网站互联网上所有的网站,但实际上,搜索引擎的功能还没那么强
  北京网站建设推荐阅读:未来网络营销发展趋势如何

本文由北京做网站整理,转载请注明:北京做网站 地址:http://www.34178.net/


本文网址:
相关阅读:
  • 没有资料
更多