一、网页搜集的过程是从URL库(初始时包含用户指定的起始种子URL集合,可以是
1个或多个)获得输入,解析URL中标明的Web服务器地址、建立连接、发送请求和接收数据,将获得的网页数据存储在原始网页库,并从其中提取出链接信息放入网页结构库,同时将待抓取的URL放入URL库,保证整个过程的递归进行,直到URL库为空。
那么搜索引擎在抓取我们网站页面的时候面对的是成千上万的URL库,这个时候搜索引擎就需要判断网页的重要程度,优先抓取和收录那些搜索引擎认为重要的页面。
二、体现网页重要度的主要特征有:
1) 网页的入度大,表明被其他网页引用的次数多;
2) 某网页的父网页入度大;
3) 网页的镜像度高(被转载),说明网页内容比较热门,从而显得重要;
4) 网页的目录深度小,易于用户浏览到。
5)网页命名具有差异化。
www.lz-studio.net/123.html
www.lz-studio.net/seo.htnl
www.lz-studio.net/123/88.html
www.lz-studio.net/seo/123.html
第二个页面比较重要!
免费电话咨询
18955177249