网站要获得好的营销转化就要增加网站收录,而且一直以来我们都在琢磨着如何来增加网站收录,今天突然看到笔者这个题目估计很多朋友都会觉得笔者是忘吃药了。其实不然,我们要明白搜索引擎对站点的“第一印象”很重要,这可以预估之后我们在对网站营销优化过程中,搜索引擎对于我们站点的定位以及对网站关键词设置的安排。所以在网站没有布局好以后,我们必须要阻止搜索引擎对站点的抓取,以免阻碍我们的站点的新站权重评估。
对于静态站点来说我们可以通过在本地将站点完美布局之后在统一上线,但是对于动态站点则不然,只有上线后才可以填充网站内容。好点的网络公司会有测试空间,将设计好的站点上传至此,然后开始补充内容当内容完整后在放入正式是空间,也就是可以向用户展示。但是不论是测试空间还是正式空间,只要投放到网络上就有可能被搜索引擎抓取到。而一旦被抓取到,如果我们的站点内容没有补充网站,势必对站点第一印象会大打折扣,而如果抓取到的是测试空间的站点,那么当我们的站点上线后,因为页面布局设计,内容填充等样板化很有可能会长期处于沙盒期或者压根就不会收录我们的站点,从而影响我们的正常优化运营。所以我们在网站正式上线之前,最好的操作就是屏蔽到搜索引擎抓取,当站点布局完整之后,在放开站点,让搜索引擎蜘蛛抓取,同时通过我们所知道的增加网站收录的操作来为站点进行蜘蛛引导,这样对于我们的后期优化来说才是完美的铺垫。
了解了为什么要对站点进行收录抓取屏蔽,下面我们来看看常见的屏蔽站点抓取的操作方式——robots.txt文件。
第一步要做的是建立一个robots.txt文本文件,该文件是网站和搜索引擎之间的一个“抓取”规则协议。建立这个文件协议就是为了告诉搜索引擎进入站点后哪些内容是可以被蜘蛛爬行抓取的,哪些是不能够不抓取收录的。像我们要屏蔽网站的抓取可以直接用表示禁止抓全站收录的“Disallow:/”语法,当然不要忘记,因为我们针对是所有的搜索引擎,所以在该文本的第一行撰写的则是表示能够被所有搜索引擎都适用的协议规则“User-agent:*”。当然,如果我们要做的仅仅是屏蔽其中的一个或几个搜索引擎蜘蛛抓取网站下的某一个目录文件我们可以直接在协议中写明,如要禁止百度抓取网站下的A目录,我们的robots.txt文件的编辑应该是:
User-agent: Baiduspider
Disallow: /A/
编辑完成后,我们将robots.txt文件保存通过ftp上传到服务器根目录中,这样就可以正式声明该协议生效了,可以屏蔽搜索引擎对网站内容的抓取收录。
第二种屏蔽搜索引擎抓取的的方法是,在网站的页面代码中植入禁止搜索引擎抓取的代码。常用的方式有在网页<head></head>之间加入<meta name="robots" content="noarchive">代码,这段代码表示禁止所有搜索引擎抓取网站和显示快照。同理,如果我仅仅想要避免某一个搜索引擎对网站的抓取,如禁止百度抓住,则可以在网页<head></head>之间加入<meta name="baidspider" content="noarchive">这段代码,其他的搜索引擎屏蔽方式也是如此,只要屏蔽对应的搜索引擎的蜘蛛机器人就可以了。
内容扩充:常见是的搜索引擎蜘蛛
1、百度蜘蛛:BaiduSpider
2、谷歌蜘蛛:Googlebot
3、360蜘蛛:360Spider
4、搜狗蜘蛛:Sogou News Spider
5、必应蜘蛛:bingbot
6、SOSO蜘蛛:Sosospider
7、雅虎蜘蛛:Yahoo! Slurp China(雅虎中国)或Yahoo! Slurp(雅虎英文)
8、MSN蜘蛛:msnbot,msnbot-media
9、一搜蜘蛛:YisouSpider
10、Alexa蜘蛛:ia_archiver
11、宜搜蜘蛛:EasouSpider
12、即刻蜘蛛:JikeSpider
(转载请注明转自:www.wangzhan.net.cn,谢谢!珍惜别人的劳动成果,就是在尊重自己!)