官方服务微信:dat818 购买与出租对接

深度解析 HITS 算法在 SEO 中的实战应用,以百度搜索引擎为例

7610

主题

2

回帖

2万

积分

管理员

积分
22982
发表于 2024-11-18 05:08:43 | 显示全部楼层 |阅读模式
    HITS(-Topic)链接分析算法诞生于1997年,这个算法是由康奈尔大学的一位博士提出的,这个算法在全球很多搜索引擎中都有使用。当然,不同的搜索引擎对于算法的侧重点和内部公式有不同的算法结构调整,而HITS算法也是链接分析中最重要的基础算法之一。

    就目前国内搜索引擎整体而言,百度是国内搜索引擎的领先者。我将利用HITS的公开文档,在百度搜索引擎上进行多元化的视角和实验,深入剖析HITS在SEO中的实际应用。

    首先我们先来了解一下HITS算法是什么,包括它的计算公式和算法原理,以及它的优缺点。深入理解这些含义后,我们接下来通过一些具体的实验来验证HITS的效果和实用性。

    HITS链接分析算法中,最精细的两个点是Hub页面和页面。

    1.什么是页面(权威页面)

    简单来说,页面(权威页面)是指某一领域或相关主题内的高质量网页。例如,在招聘领域,的首页就是该领域的优质网页。例如,淘宝首页就是电子商务领域的优质网页。

    2.什么是Hub页面(中心页面)

    中心页面(hub page)通常包含许多高质量页面的链接。比如360网址导航的首页就是一个非常好的Hub页面(hub page)。因为360网站导航网站页面中聚集了很多不同类型的权威网站集。例如,新闻栏目聚集了新浪、腾讯等权威网站。视频板块汇聚搜狐视频、优酷视频等权威网站。这一点有点类似于我们经常发布的一些分类目录网站的外部链接(这就是为什么网站目录的外部链接仍然有一定的效果,正是因为搜索引擎本身有自己独特的算法,会影响你的排名) 。

    3、HITS算法的意义

    HITS算法之所以存在,是因为搜索引擎需要在全世界爬行的网页文档集合中找到与用户的搜索请求查询匹配度最高的页面,而这里匹配度最高的就是一些高质量的“”页面和“Hub”页面,而不是大家常理解的网站文章的高质量原创性等因素。特别是一些权威的页面对于搜索引擎来说更加友好,因为这样的网站页面的内容会更好地满足用户的查询。

    很多朋友可能会问,如何成为权威页面或中心页面?

    其实中心页的概念解释已经告诉大家如何成为中心页了。例如360导航网站上某种站点类型的聚合页面,或者网站类别目录站点上某种站点类型的聚合页面。这些都是中心页面,但是中心页面也分为优质中心页面和一般中心页面。 。例如,360导航网站的首页不仅是一个中心页面,也是导航网站的权威页面。

    那么如何成为权威页面呢?

    这里就提一个大家都想了解的更深层次的东西。所谓高权重外部链接,其实可以理解为高权威外部链接,即权重=权威。搜索引擎对每个站点和站点的每个页面都有一系列的网页评级,这些评级决定了该页面的链接是否有效且值得信赖。权威页面通常具有以下几个特征:

    1、品牌属性

    无论是某一类型的网站,想要成为行业权威,就必须具有较强的品牌属性。从百度搜索引擎贴心的算法就可以知道这一点。例如,当用户搜索网上商城时,会想到京东、天猫;例如,当用户搜索空调时,他们会想到海尔、格力、美的等知名品牌。正是因为这种品牌属性,使得此类品牌官网能够在某个行业领域形成独特的权威。然而,对于搜索引擎来说,这样的品牌属性对搜索引擎来说是不可见的,但用户却可以知道。因为对于用户来说,用户可以通过报纸、杂志、电视等多媒体方式了解这些品牌的循环曝光,从而积累品牌印象程度。那么搜索引擎是如何计算这些品牌属性的权威度的呢?对于搜索引擎来说,搜索引擎会通过全网爬行技术检索全球范围内的所有网页集合,并根据文档检索模型计算词频,通过词频计算出相关性最高的词频组合的词类型是主题的一致性。通常是行业产品词+品牌词搜索。

    2、历史属性

    我们可以将历史属性称为信任属性。什么是信任属性?简单的理解就是,一个权威的网站,其页面中的价值信任信息必须具有一定的真实性和可靠性,就像百度百科中的词条一样。会有相应的参考资料作为参考证据,从而提高内容的信任度。所以即使内容不是原创的,如果页面符合信任属性,你的内容仍然很有价值,有利于搜索引擎优化。除了信息价值信任之外,信任的另一个属性是历史数据的积累,这一点在老域名网站中表现得非常明显。网站越老,信任属性就越明显。例如,在一些灰色行业或医疗行业工作的SEO人员非常喜欢使用已经使用过且基础干净的老域名进行优化。

    3. 曝光属性

    权威页面除了品牌属性、历史数据积累等属性外,还具有曝光属性。这类暴露属性将包括两大类,包括现场暴露属性和场外暴露属性。网站的曝光属性可以理解为收录的页面数量。一般来说,当一个域名使用了10年以上,每天都丰富着一些主题非常一致的优质中心页面,那么自然它的曝光度就会非常大。站外曝光属性是指整个互联网站点文档集合中具有相同词频集和关键词主题、反映您的品牌属性的文档数量。例如,有X十亿个网页描述了淘宝网的网络相关结果。在X亿个网页的集合中,与淘宝关系最密切的词语是与电子商务、商场、网络购物等主题行业术语相关的。那么通过历史属性数据的积累,淘宝网站是电子商务领域的权威网站。

    4. HITS算法的缺陷

    每个搜索引擎算法都有自己的优点和缺陷,HITS也不例外。 HITS算法中最常见的缺陷有四个:计算效率低、主题漂移、容易作弊、结构不稳定。

    由于HITS算法是与查询相关的算法,所以不能先计算。相反,某些网站文档(链接评分部分)的单词匹配度必须在用户请求某个搜索词后计算,再加上HITS算法的计算。属性需要多次计算迭代才能最终计算出检索结果的文档链接的推荐票,计算效率较低。

    至于话题漂移问题,经常可以看到一些现象。即使我交换的链接与我网站的主题无关,也会促进我的页面关键词排名的提高。出现这种现象正是因为HITS特殊的算法结构,使得这些不相关的网页获得了很高的排名。这最终导致搜索结果出现主题漂移,这种现象也称为“紧密链接的社区现象”。

    之所以容易被利用作弊,是因为HITS更强调中心页面和权威页面之间相辅相成的关系。作弊者可以创建一个新页面,并在新创建的网页中添加许多高质量的权威页面链接。该页面本身会形成一个良好的中心页面,然后作弊者可以使用该页面上的权威链接。枢轴,然后指向作弊网页的链接,从而提高作弊网页的权威页面分数。如下图:

    上图所示的页面文档集合包含4个导出链接。假设该页面是解释视频网站排名的相关内容信息,4个导出链接分别包含4个不同的独立视频网站,其中三个是已知的权威网站,第二个网站是我们的作弊网站。这种方法可以用来增加链接的投票推荐度。

    HITS的最后一个缺陷是其结构不稳定。什么是结构不稳定?简单来说,在原来的网页文档集合中,如果增加或删除网页链接,就会对HITS算法排名产生非常大的变化。 。例如,大家都知道交换的链接除了相关性之外还需要注意稳定性,却不知道稳定性的概念是由HITS的缺陷造成的。一旦链接不稳定,包括链接位置改变、链接删除等,都会影响算法结构的重新计算。这会影响您自己网站的关键字排名。

    5.HITS算法的实际应用(实验)

    现在我们已经到了SEO实验阶段,实际验证比建议更糟糕。由于文章的特殊性,本文仅发表并分析一个案例。首先我们来了解一下实验步骤!

    步:

    第一步:实验假设

    假设1:中心页面和权威页面均已建立(该现象/说法存在);

    假设2:假设网站在不进行任何外部链接、站内更新、站内布局调整的情况下,通过HITS算法的逻辑提高排名;

    第二步:准备实验场地(记录实验时间和场地快照时间)

    1.首先,我们准备了一个区域SEO词排名第23位的网站。该词本站排名已稳定在第23位1个多月(因为不排除其他外部链接和内容更新影响排名下降或提升),所以本站排名稳定。网站排名第23位,差距稳定一个月+最好。

    2、然后我们记录网站的快照时间和最后更新文章的时间节点,以确保页面没有被蜘蛛抓取更新,页面内容没有被改变(以达到最好的效果)实验),如下图所示:

    快照时间:2017年2月3日11:42:34

    第三步:HITS算法验证(记录实验时间和站点快照时间)

    1.验证方式:Hub hub页面验证

    2、验证详细步骤:首先,我们知道一个好的枢纽页面肯定会包含一些权威的页面或者一些好的枢纽页面,所以我们不可能添加一些像百度、新浪这样的链接来为自己导出。因为它不符合关联逻辑。那么我们添加的其实就是太原SEO网站在首页的排名,如下图所示:

    上图为加入实验站点并排名首页的7个太原SEO网站。为了防止页面权重损失,都添加了。那么肯定会有一个问题,为什么要添加首页而不是排名第三、第五页的太原SEO网站。其实,如果你回过头来思考一下这个Hits算法,就不难发现Hits所强调的Hub页面在某个点(领域)一定是权威的,而搜索引擎的目的就是生成搜索结果为了用户的需求。如果你把排名前10的网站放在一个网站上,你就已经告诉用户这个网站可以找到你想要的内容。而且我网站的主题也是“太原SEO”,这样可以和用户搜索结果更加一致。

    第四步:排名统计(记录实验时间和站点快照时间)

    我们看一下单向链接添加后的快照,如下图:

    快照更新时间:2017年2月08日21:45:06

    虽然快照已经更新了。不过,排名记录是第23位。此时需要耐心等待,因为快照更新并不意味着排名会更新。需要时间等待。我们用一个工具来记录网站“太原SEO”每天的排名,如下图:

    我们通过5118大数据平台可以看到,从2月4日修改链接到2月8日快照更新,排名一直没有提升。直到快照更新后5天,排名才发生变化,出现了排名中途波动。将齿轮倒至原始位置。那么我们看一下排名截图,如下图:

    自2月20日排名恢复以来,恢复后排名一直稳定在第二页,直至当前文章截止位置。这说明整个实验操作过程的排名提升了10位左右。

    第五步:效果评估与总结(记录实验时间)

    通过整个算法原理分析和实验认证,大家可以清楚的看到一些搜索引擎算法是用来实现某些东西的。当然,有些人可能会质疑实验是否是巧合。由于类似的实验我已经做过几十次了,成功率基本都高达90%,所以几乎不存在所谓的巧合。但并不是每个朋友都能做到这一点,因为有很多细节需要注意。

    1. 为什么我应该选择排名第23位的网站而不是排名第100位之后的网站进行实验?因为从Hits算法本身来看,如果使用排名在100之后的没有排名的网站来进行实验,那么显然是有问题的,因为它不符合Hub的要求。搜索引擎识别一个网站需要一定的时间和信任。如果你的网站没有任何信任,添加一些好的Hub链接到你自己的网站不会有太大的效果。

    2、我们之所以在排名的情况下进行操作,是因为这种微调效果非常好,记得添加,有助于防止失重。

    3、如果您的域名是老域名(已经使用过的老域名网站),即使没有排名也可以进行此类实验操作,因为老域名网站本身就具有一定的可操作性。信任,不需要被搜索引擎搜索到。评估长时间内页面的质量(包括信任评分、页面价值评分等)。

    一般来说,搜索引擎中其实有很多算法,包括公共链接分析算法如Hits算法、算法、SALSA算法、算法等。比如还有文档检索模型(包括向量空间模型、概率模型、布尔模型)模型等),比如倒排索引、TF-IDF等,其实在百度上就可以找到它们对应的透明计算公式(涉及高等数学)。如果你能深入研究和研究,就很难发现一些SEO排名的秘密。
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2024, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2024-12-22 19:07 , Processed in 0.058604 second(s), 18 queries .