搜索引擎工作原理与SEO优化：种子网站抓取与预处理详解

hwyzw · 发表于 2024-11-28 04:39:26

（1）手动进入种子网站；

(2)蜘蛛抓取页面后，从HTML中解析出新的链接URL，并与地址数据库中的数据进行比较。如果地址库中没有网站，则将其存入地址库中供访问；

（3）站长通过接口提交的URL；

（4）站长通过XML站点地图和站长平台提交的URL；

(5)文件存储。搜索引擎蜘蛛捕获的数据存储在原始页面数据库中。

(6)爬取时检测复制内容。

搜索引擎如何工作

2. 预处理

在一些SEO经验分享中，“预处理”也被称为“索引”，因为索引的主要内容是预处理：

1. 提取文本

我们在原始页面数据库中存储的是HTML代码，其中不仅包含用户可以在页面上直接看到的文本内容，还包含其他搜索引擎无法用于排名的内容，例如JS、AJAX等。首先要做的就是从HTML文件中去除这些无法解析的内容，并提取出可以排序的文本内容。

2.中文分词

分词是中文搜索引擎独特的一步，在存储/处理页面/用户搜索时基于单词。基本上有两种方法：一种是基于字典匹配，另一种是基于统计。

3.删除停用词

无论是英文还是中文，页面上都会有一些出现频率很高且对内容没有影响的单词，例如：啊、哈等，这些单词称为停用词。搜索引擎会删除这些停用词，使数据主题更加突出，减少不必要的计算。

4. 删除干扰词

大多数页面都有一些对页面主题贡献不大的内容。例如，A页面的内容是一篇关于百度网站的文章，关键词是百度网站。然而，除了解释该内容的主要内容之外，还有页眉、页脚和广告等区域共同组成了该页面。

这些部分中出现的词语可能与页面内容本身的关键词无关。搜索引擎的排序程序在对数据进行排序时无法参考这些噪声内容，因此需要在预处理阶段区分并消除这些噪声。去除噪音的方法是根据HTML标签将页面划分为块，例如页眉标签、页脚标签等。去除这些区域后，剩下的就是页面的主要内容。

5. 内容去重

也就是说，重复的网页被删除，同一篇文章经常会在不同的网站/同一网站的不同地址上重复出现。去重对于用户体验来说是必要的，搜索引擎会识别并删除页面上的重复内容。这个过程也叫内容去重，也是影响百度网站收录的点之一。

6.远期指数

简称索引。经过上述步骤（提取、分词、降噪、去重），搜索引擎最终获得反映页面主要内容的以词为单位的唯一内容。

接下来，搜索引擎的索引程序提取关键字，并根据分词程序划分的单词将页面转换为关键字集合。同时，还需要记录每个关键词的出现频率、频率、格式（如标题标签、粗体、H标签、锚文本等）以及每个关键词在页面中的位置（如正文的第一段）。页等）。）。搜索引擎的索引程序将由页面和关键词组成的词典结构存储到索引数据库中。

7.倒排索引

前向指数不能直接用于排名。假设用户搜索关键字。如果只有正向索引，则排名程序需要扫描索引数据库中的所有文件，找到包含该关键词的文件，然后计算相关性。

这种计算方式无法满足实时返回排名结果的要求。搜索引擎会预先对所有关键词进行分类，将正向索引数据库重构为反向索引，将文件到关键词的映射转换为关键词到文件的映射。在倒排索引中，关键字为主键，每个关键字对应一系列文件。例如，下面第一行右侧显示的文件都是包含关键字1的文件。这样，当用户搜索某个关键字时，排序程序在倒排索引中找到该关键字，可以立即找到该关键字的文件。所有关键字。

3. 搜索结果排名

前面的蜘蛛抓取完页面后，数据预处理和索引程序计算出倒排索引，搜索引擎随时准备处理用户搜索。用户在搜索框中输入想要查询的内容后，排名程序调用索引库中的数据，计算排名，并将内容显示在搜索结果页面中。

1. 搜索文字处理

搜索引擎收到用户输入的搜索词后，需要对搜索词进行一些处理，然后才能进入排名过程。搜索词处理过程包括：中文分词、去除停用词、命令处理。

完成上述步骤后，搜索引擎默认处理剩余内容的方式是在关键词之间使用“AND”逻辑。

例如，当用户在搜索框中输入“减肥方法”时，经过分词和去停用词后，剩下的关键词就是“减肥”和“方法”。排序时，搜索引擎默认认为用户要查询的内容既包括“减肥”也包括“方法”。

2. 文件匹配

经过上述对搜索词的处理后，搜索引擎得到了以词为单位的关键词集合。下一步进入：文件匹配阶段，就是查找包含所有关键字的文件。索引部分提到的倒排索引可以快速完成文件匹配。假设用户搜索“关键词1关键词2”，排名程序只需要在倒排索引词中找到“关键词1”和“关键词2”，就可以找到包含这两个词的所有页面文件。

3. 初始子集的选择

找到包含所有关键词的匹配文件后，无法对这些文件进行相关性计算，因为在实际情况下，找到的文件往往有几十、几百万、甚至几千万。实时对这么多文件进行相关性计算需要很长时间。百度搜索引擎最多只会返回760条结果，因此您只需计算前760条结果的相关性即可满足要求。

由于所有匹配文件已经具备了最基本的相关性（这些文件包含了所有查询关键词），因此搜索引擎会首先过滤掉1000个页面权重较高的文件，并通过过滤权重来初始化一个子集。然后对该子集中的页面进行相关性计算。

4. 相关性计算

使用权重选择初始子集后，下一步是计算子集中页面的关键词相关性。计算相关性是排名过程中最重要的一步。影响相关性的因素主要包括以下几个方面：

① 关键词出现频率

分词后的多个关键词对整个搜索串的意义贡献不同。更常用的单词对搜索项的含义贡献较小，不太常用的单词对搜索项的含义贡献较大。因此，搜索引擎并不是对搜索词中的关键词一视同仁，而是根据它们的常用情况对其进行加权。不常见词的权重系数高，常见词的权重系数低。排名算法更关注不常见的单词。

② 词频和密度

一般认为，在没有关键词积累的情况下，搜索词在页面上出现的次数越多，且密度越高，页面与搜索词的相关性就越强。当然，这只是一般规则，可能并非实际情况，因此相关性计算中还涉及其他因素。频率和密度只是等式的一部分，并且变得越来越不重要。

③关键词位置及形式

正如索引部分提到的，页面关键字的格式和位置记录在索引数据库中。关键词出现在较重要的位置，如标题标签、黑体、H1等，表明页面与关键词相关性更强。这部分就是页面SEO需要解决的问题。

④ 关键词距离

分段关键词出现完全匹配表明它们与搜索词最相关。例如，搜索“减肥方法”时，如果“减肥方法”四个词连续、完整地出现在页面上，那么相关性最高。如果“减肥”和“方法”这两个词没有出现在连续匹配中并且显得更接近，搜索引擎就会认为它们的相关性稍微高一些。

⑤ 链接分析和页面权重

除了页面本身的因素外，页面之间的链接和权重关系也会影响关键词的相关性，其中最重要的是锚文本。页面以搜索词作为锚文本的传入链接越多，页面的相关性就越高。链接分析还包括链接源页面本身的内容主题、锚文本周围的文字等。

总结：上面的站图SEO已经详细分享了搜索引擎的工作原理。了解这些知识对于我们收录百度网站具有重要意义。例如，标题应包含用户可能搜索的需求词，在文本中适当体现关键词或拆分词是有帮助的。确定内容与用户搜索词的相关性。

搜索引擎工作原理与SEO优化：种子网站抓取与预处理详解

浏览过的版块