石家庄网站建设:蜘蛛站点爬行规律
来源:www.wangzhan.net.cn 作者:笔者小丹 时间:2019-07-26 10:58:35 浏览:2330次
网站收录之于网站优化而言是基础,多数情况下我们可以通过网站收录的多少就可以基本判断网站的数据情况,这也就是为什么我们会想尽办法引蜘蛛进行网站爬行来增加网站收录。说到这里,想必有的朋友看是疑问了,我们一直在说要引导蜘蛛爬行,那么当我们通过外部链接或其他途径将搜索引擎蜘蛛引入站点后,它们是如何对网站进行爬行抓取的呢?
其实,当我们利用优化操作的一些手法来引导蜘蛛的时候,并不是所有的站点都是有效果的,也或者说根据搜索引擎对每个站点的信誉值的不同,能够获得的蜘蛛数据也是不同的。当我们想办法来引导蜘蛛的时候,蜘蛛也会根据搜索引擎例如百度,对该站点每个页面的评分来进行逐个的抓取,对于百度白名单里的站点或是百度权重高的网站的页面就会有“耐心”的进行爬行,筛选来选择符合评分规则的站点进入百度临时索引库。同时在抓取这些高权重站点的网页的时候,如果页面中有指向其他页面的链接也是就相关内链的时候蜘蛛会开展“分身术”对这些布局的链接一层一层的进行页面链接的爬行。而罗列的布局路径,同样的蜘蛛也会记录在数据库中,进行第一次,第二次……的爬行,筛选,选择合适的内容进行快照展示。
基本了解了蜘蛛的爬行方式,我们来继续看看蜘蛛针对页面抓取的规则有哪些呢?其实对于搜索引擎蜘蛛而言,网站的评分如百度权重,谷歌pr值等这些参考数据越高,网站页面的信誉度越高那么对这些网站的爬行抓取频率就会越频繁。搜索引擎蜘蛛在一个站点爬行的时候,一般是先进入着陆页面通常是网站首页,因为网站首页的权重是最高的同时不论我们是否有意为之,其实网站大部分的页面的链接指向都是不约而同指向首页的,这也就奠定了蜘蛛爬行的优先级问题。然后,通过网站首页中布局的链接路径来抓取网站的内页,当然也并非所有的内容都会被蜘蛛抓取到。对于一般企业站点我们要求网站目录深度不超过三层,其意义也是为了便于蜘蛛爬行。因为多数情况下,中小型企业的站点内容并不多,三层足够囊括要展示的内容,再者就蜘蛛的常规计算来说,一般认为超过三层的内容都是不太重要的内容,所以基本上减少爬行甚至直接放弃爬行。
很多时候我们发现网站针对某个页面做了很多外链导向,但是该页面依然没有被收录,同时我们并不知道我们所做的引导蜘蛛是否进入过,要怎么办呢?这个就设计到了我们网站优化的另一个工具了,就是网络日志。一般空间服务商可以为大家提供这个文件,我们可以通过这个文件来了解网站某一段时间内容的蜘蛛爬行情况。诸如,有哪些搜索引擎的蜘蛛进入过网站,这些蜘蛛浏览了网站中的哪些页面,是通过哪些渠道进入的,蜘蛛爬行页面的具体时间,抓取页面的反馈情况,等等。
(转载请注明转自:www.wangzhan.net.cn,谢谢!珍惜别人的劳动成果,就是在尊重自己!)
最新案例