hwyzw 发表于 2025-1-2 11:23:24

全文搜索引擎与分类目录的工作原理及其在网页资料获取中的应用

    【应用】:从互联网获取网站网页数据的系统,可以建立数据库并提供查询。 (按工作原理分):全文搜索引擎、分类目录。 1>全文搜索引擎数据库依靠网络爬虫通过互联网上的各种链接自动获取大量的网页信息内容,并按照一定的规则进行分析和组织。 (百度,) 2>分类目录:只是按目录分类的网站链接列表。它是通过手工收集和整理网站信息而形成的数据库。 (国内搜狐):是在Web上独立运行的软件程序。他们不断过滤数据​​并做出自己的决定。他们可以使用Web获取文本或执行搜索查询,并逐步完成各自的任务。 :购物机器人、聊天机器人、搜索机器人(网络爬虫)等。 :网络爬虫也称为网络蜘蛛。它是一个按照一定规则自动提取网页的程序。它会通过网络自动抓取互联网上的网页。该技术一般可用于检查您网站上的所有链接是否均有效。当然,更先进的技术是将相关数据保存在网页中,可以作为搜索引擎使用。搜索引擎使用网络爬虫来查找网络内容。网络上的 HTML 文档通过超链接连接起来,就像编织网络一样。网络爬虫也称为网络蜘蛛。他们沿着这个网络爬行,使用爬虫抓取这个网页,提取内容,并提取超链接作为进一步爬行的线索。网络爬虫总是从某个起点开始。这个起点称为种子。您可以告诉它,也可以从某些 URL 列表网站获取它。

    https://img0.baidu.com/it/u=3702574856,1885758327&fm=253&fmt=JPEG&app=120&f=JPEG?w=985&h=500

    :网络爬虫分类,通用爬虫聚合,爬虫工作原理:从一个或多个初始网页的URL出发,按照一定的网页分析算法进行过滤和无主题,获取初始网页的URL,抓取网关的链接,保留有用的链接(爬取的同时,从当前网页中提取相关的(受控的)放入待爬取的队列中,通过一个URL放入队列中,直到出现一定的搜索满足该计划的策略。下一步要从队列中抓取停止条件,并重复上述步骤,直到满足程序的停止条件,并建立索引以供后续查询和检索。在此过程中还可能为以后的抓取过程提供反馈和指导,这些是大量用户不关心的网页。以上三个问题是亟待解决的问题。 。 ,不支持基于语义的搜索。 、音频等具有一定结构的信息密集型数据无法获得。算法 广度优先算法 现有的聚焦爬虫对爬行目标的描述可以分为三种类型:基于目标网页特征、基于目标数据模式、基于领域概念。爬虫根据目标网页的特征进行爬行、存储和索引的对象一般是网站或网页。根据种子样本的获取方法,可分为:(1)预先给定的初始爬行种子样本; (2)预先给定网页分类目录以及该分类目录对应的种子样本,例如Yahoo!分类结构等; (3))根据用户行为确定的爬取目标样本分为: a) 用户浏览时标记的爬取样本; b) 通过用户日志挖掘获得的访问模式和相关样本。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等(基于网络拓扑1(深度优先策略1>网页粒度分析算法2(广度优先)策略2>网站粒度分析算法3(最佳优先策略)
页: [1]
查看完整版本: 全文搜索引擎与分类目录的工作原理及其在网页资料获取中的应用