合肥网站建设工作室

关注合肥工作室微信公众号,提供最新网站建设资讯

扫一扫微信二维码

分析蜘蛛如何抓取页面?

2010-11-13 19:22:04网站设计

      一、网页搜集的过程是从URL库(初始时包含用户指定的起始种子URL集合,可以是 KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
1个或多个)获得输入,解析URL中标明的Web服务器地址、建立连接、发送请求和接收数据,将获得的网页数据存储在原始网页库,并从其中提取出链接信息放入网页结构库,同时将待抓取的URL放入URL库,保证整个过程的递归进行,直到URL库为空。 KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
那么搜索引擎在抓取我们网站页面的时候面对的是成千上万的URL库,这个时候搜索引擎就需要判断网页的重要程度,优先抓取和收录那些搜索引擎认为重要的页面。KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
 KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室

      二、体现网页重要度的主要特征有: KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
1) 网页的入度大,表明被其他网页引用的次数多; KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
2) 某网页的父网页入度大; KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
3) 网页的镜像度高(被转载),说明网页内容比较热门,从而显得重要; KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
4) 网页的目录深度小,易于用户浏览到。KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
5)网页命名具有差异化。KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
www.lz-studio.net/123.htmlKhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
www.lz-studio.net/seo.htnlKhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
www.lz-studio.net/123/88.htmlKhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
www.lz-studio.net/seo/123.htmlKhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
第二个页面比较重要!KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室
 KhF合肥网站工作室|合肥网站建设优化推广 - 合肥LZ建站工作室

本文关键词
蜘蛛页面抓取,蜘蛛抓取页面