来源:www.wangzhan.net.cn 作者:笔者小丹 时间:2019-01-09 16:30:33 浏览:2264次
我们在进行网站优化的时候首先会通过网站根目录放置几个文件,像robots.txt文件,sitemap.xml文件等等都是为了之后网站优化操作时能够有比较不错的蜘蛛爬行记录。同时,我们也发现很多站点上是不存在robots文件的,所以很多碰哟开始问了,网站到底需不需要制作robots文件呢?或者说robots文件的存在确实必须不可吗?
首先我们要了解一下什么是robots文件,其实它也是互联网上的一种协议,我们可以认为是爬虫协议,是搜索引擎蜘蛛之间的访问权限所在,我们认识当搜索引擎蜘蛛进入网站后它第一个爬行的文件不是首页而是robots文件,当robots没有时它才会按照网站权重页面的比例分布来进行探索爬行,所以很多人认为这个文件存在的必要性几乎为零。但是,如果我们给一个站的链接进行了robots,但是百度冲另外的别的站进入了你的这个链接依然可以爬行,只有从robots进来的 才有可能不去爬行。如果我们对全站进行了拒绝robots百度爬行,那么,一般来说,只有权重最高的首页会被收录标题,但是不会保存快照,其他页面不会保存标题,但是偶尔会因为某些内部页面的权重很高,而收录。
robots文件,一旦拒绝搜索引擎对页面进行抓取,就是告诉搜索引擎这个页面不予许给予抓取,一般来说也是说不给这个页面权重,一般来说这个页面是没有排名的,但是如果有别的网站可以连接到这个页面,那么搜索引擎则依然会给这个页面权重。多数情况下,白帽站点我们是建议在站点中制作 robots文件文件的,而如果是灰帽、黑帽用robots为了获得更快的全站评分操作就要谨慎使用咯!
robots文件常见的内容有:User-agent: * (允许哪些蜘蛛进入,后面加*是说所有蜘蛛);Disallow: 不允许搜索引擎爬行的页面;Allow: 定义允许搜索引擎收录的地址以及Sitemap:(后面的内容标注的是网站地图的路径)。
其中我们最常用到的就是不允许抓取和sitemap这个,为的是第一让搜索引擎不要抓取一些不必要的或者是网站私密性的文件,以免造成网站一些重要信息泄露,尤其是针对谷歌搜索引擎的robots文件这个一定要写明确了,第二个是为了让搜索引擎蜘蛛进入网站后能够首先进入网站地图来获得更多的页面抓取的可能性,增加网站页面收录的几率。所以笔者小丹说这两个是在robots文件中最常用到的标识了。
上面说到了robots文件中拒绝搜索引擎爬行页面,这是为什么呢?其实主要还是为了网站的安全考虑,比如说后台页面后者用户注册会员页面,有可能也会形成收录,会导致形成收录,会导致内部资源泄露。再者像后台登陆这样的页面本身的页面质量度是极差的,如果被收录了很有可能会降到网站页面的整体评分,得不偿失。而robots文件中拒绝了爬行的页面剩下的页面就是允许被爬行的,如果我们同时希望搜索引擎能够主动地爬行某些我们希望的页面和链接,我们可以在这个文件中,主动写允许爬行的链接—Allow:。
(转载请注明转自:www.wangzhan.net.cn,谢谢!珍惜别人的劳动成果,就是在尊重自己!)
上一篇:网站外链为什么不收录
下一篇:为什么要制作404页面
24小时服务热线:400-1180-360
业务 QQ: 444961110电话: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互联信息技术有限公司(河北供求网)诞生于2003年4月,是康灵集团旗下子公司,也是河北省首批从事网站建设、电子商务开发,并获得国家工业和信息化部资质认证的企业。公司自成立以来,以传播互联网文化为已任, 以高科技为起点,以网络营销研究与应用为核心,致力于为各企事业单位提供网络域名注册、虚拟主机租用、网站制作与维护、网站推广和宣传、网站改版与翻译、移动互联网营销平台开发与运营、企业邮局、网络支付、系统集成、软件开发、电子商务解决方案等优质的信息技术服务,与中国科学院计算机网络信息中心、腾讯、百度、阿里巴巴、搜狗、360、电信、联通、中国数据、万网、中资源、阳光互联、点点客、北龙中网、电信通等达成战略合作伙伴关系。