来源:www.wangzhan.net.cn 作者:笔者小丹 时间:2020-05-20 11:18:35 浏览:2191次
搜索引擎的三大功能:爬取、索引和排名。而在我们确定了网站已经被爬行以后,下一步来进行操作的就是确保网站的内容路径能够被索引。我们要明确的知道,即便是网站被搜索引擎发现和爬行了,但是并不意味着网站就可以被搜索引擎所索引储存在索引库中。在对搜索引擎爬行进行分析的时候,我们明白了网站是如何被搜索引擎发现和爬行的,而索引就是用来发现我们的页面对其进行储存的。搜索引擎找打对应的网页后,会像照相机一样来记录它,同时在这个过程中会对该页面进行数据分析和筛选,然后再判断是否将该页面储存到索引库中。
下面我们来分析的内容就搜索引擎索引的工作原理以及如来让我们的网站被搜索引擎收录到数据库中。我们是否可以看到Googlebot搜索引擎如何快照到我们的页面?答案是肯定的,要知道网站页面的缓存版本将反映Googlebot上次对其进行爬网的快照。Google以不同的频率抓取和缓存网页。我们可以通过单击搜索引擎结果页中URL旁边的下拉箭头并选择“快照”来查看页面的已缓存版本的外观:我们还可以查看网站的纯文本形式以确定是否有效地检索和缓存了我们的重要内容。
那么收录的页面是否还有可能从索引中删除呢?这个答案也是肯定,造成已经被收录的页面被再次“放弃”删除的原因有很多,我们常见的原因有:
1、URL返回“找不到”错误(4XX)或服务器错误(5XX),这可能是偶然的页面已移动并且未设置301重定向或故意的页面被删除并进行了404处理以便将其从索引中删除。
2、网址中添加了noindex元标记,网站所有者可以添加此标记,以指示搜索引擎从其索引中省略该页面。
3、该网址已因违反搜索引擎的网站站长指南而受到了人工惩罚,因此已从索引中删除。
4、网站阻止了URL的爬网并添加了访问者访问该页面之前需要使用密码。
如果我们认为不再显示以前在Google索引中的网站页面,则可以使用URL Inspection工具来了解该页面的状态,或者使用具有“更新索引”功能的Google抓取方式来向索引提交各个URL。 那么,搜索引擎又是如何为我们的网站建立索引的呢?
1、机器人元指令
元指令是我们可以向搜索引擎提供的有关如何处理网页的说明。我们可以告诉搜索引擎抓取工具,如不要在搜索结果中将此页面编入索引或不要将任何链接资产传递给任何页面上的链接。这些指令是通过HTML页面<head>中的Robots Meta标签或HTTP标头中的X-Robots-Tag执行的。
2、元指令影响索引编制,而不是爬网
Googlebot需要抓取我们的页面才能查看其meta指令,因此,如果我们试图阻止抓取工具访问某些页面,那么meta指令就无法做到这一点。 必须抓取搜索引擎标签以使其受到尊重。
3、机器人元标记
可以在网页HTML的<head>中使用robots元标记。它可以排除所有或特定的搜索引擎。以下是最常见的meta指令,以及我们可能在哪些情况下应用它们。
(1)index/noindex告诉引擎是否应该对页面进行爬网并将其保留在搜索引擎的索引中以进行检索。如果我们选择使用“noindex”,则表示正在与搜索引擎进行通讯,以使该网页不包含在搜索结果中。默认情况下,搜索引擎假定它们可以索引所有页面,因此不需要使用“index”值。可能使用的时间:如果我们尝试从Google网站索引中剪裁薄页,但仍希望访问者可以访问它们,则可以将页面标记为“noindex”。
(2)follow/nofollow告诉搜索引擎页面上的链接是应该跟随还是不被跟随。 关注会导致搜索引擎跟踪我们页面上的链接,并将链接所有权传递给这些URL。或者我们选择使用“nofollow”,则搜索引擎将不会跟踪或将任何链接资产传递给页面上的链接。默认情况下,假定所有页面都具有“跟随”属性。可能的使用时间:尝试防止页面被索引以及爬虫程序不跟踪页面上的链接时,nofollow通常与noindex一起使用。
(3)noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将维护已索引的所有页面的可见副本,用户可以通过搜索结果中的缓存链接来访问它们。可能使用的时间:如果我们经营一个电子商务网站并且价格定期变化,则可以考虑使用noarchive标签,以防止用户看到过时的价格。
说了很多理论的知识,我们举个一个元机器人noindex,nofollow标签的例子:<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>…</body></html>该代码是排除所有搜索引擎将页面编入索引或跟踪任何页面上的链接。如果我们要排除多个抓取工具则可以使用多个机器人排除代码。
4、元指令影响索引编制,而不是爬网
Googlebot需要抓取我们的页面才能查看其meta指令,因此,如果我们试图阻止抓取工具访问某些页面,那么meta指令就无法做到这一点。必须抓取搜索引擎标签,以使其受到尊重。
5、X机器人标签
x-robots标记用于URL的HTTP标头中,如果我们想大规模阻止搜索引擎,则比meta标记提供更多的灵活性和功能,因为我们可以使用正则表达式,阻止非HTML文件以及应用站点范围内的noindex标记。机器人元标记中使用的派生词也可以在X-Robots-Tag中使用。
只要我们了解影响爬网和索引的不同方法将帮助我们避免可能导致无法找到重要页面的常见陷阱。
(转载请注明转自:www.wangzhan.net.cn,谢谢!珍惜别人的劳动成果,就是在尊重自己!)
上一篇:搜索引擎的工作原理之排名
下一篇:搜索引擎的工作原理之抓取
24小时服务热线:400-1180-360
业务 QQ: 444961110电话: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互联信息技术有限公司(河北供求网)诞生于2003年4月,是康灵集团旗下子公司,也是河北省首批从事网站建设、电子商务开发,并获得国家工业和信息化部资质认证的企业。公司自成立以来,以传播互联网文化为已任, 以高科技为起点,以网络营销研究与应用为核心,致力于为各企事业单位提供网络域名注册、虚拟主机租用、网站制作与维护、网站推广和宣传、网站改版与翻译、移动互联网营销平台开发与运营、企业邮局、网络支付、系统集成、软件开发、电子商务解决方案等优质的信息技术服务,与中国科学院计算机网络信息中心、腾讯、百度、阿里巴巴、搜狗、360、电信、联通、中国数据、万网、中资源、阳光互联、点点客、北龙中网、电信通等达成战略合作伙伴关系。