hwyzw 发表于 2025-1-2 10:50:11

WechatSogou微信公众号爬虫、DouBanSpider豆瓣读书爬虫与zhihu_spider知乎爬虫详解

    -微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口可以扩展为基于搜狗搜索的爬虫。返回的结果是一个列表,每一项都是公众号具体信息的字典。 :

    -豆瓣阅读爬虫。你可以爬取豆瓣阅读标签下的所有书籍,按评分排序存储,并存储在Excel中,这样更方便大家筛选和搜索,比如过滤1000条以上评论的高分书籍; Excel中可以根据不同的主题存储在不同的Sheet中。 ,使用User Agent冒充浏览器进行爬行,并添加随机延迟,以更好地模仿浏览器行为,避免爬虫被拦截。 :

    -知乎爬虫。本项目的功能是爬取知乎用户信息和人际拓扑关系,利用爬虫框架和数据存储。 :

    -user- 用户爬虫。数据总数:,抓取字段:用户id、昵称、性别、头像、等级、经验值、粉丝数、生日、地址、注册时间、签名、等级和经验值等。爬取后,生成一条用户数据B站报道:

    - 新浪微博爬虫。主要抓取新浪微博用户的个人信息、微博信息、粉丝和关注者。从新浪微博获取验证码进行登录,可以使用多个账号登录,防止新浪反盗版。主要使用爬虫框架。 :

    -小说下载分布式爬虫。使用redis实现的分布式网络爬虫,底层存储集群使用redis分布式,使用redis实现爬虫状态显示,主要针对某小说网站。 :

    -CNKI爬虫。设置搜索条件后,执行src/.py捕获数据。捕获的数据存储在/data目录中。每个数据文件的第一行是字段名称。 :

    -链家爬虫。爬取链家历年北京二手房交易记录。涵盖了链家爬虫文章中的所有代码,包括链家模拟登录代码。 :

    https://img0.baidu.com/it/u=3050075049,547630897&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=650

    -京东爬虫。基于京东网站爬虫,保存格式为csv。 :

    QQ---群爬虫。批量抓取群组信息,包括群组名称、群组编号、群组编号、群组所有者、群组简介等,最终生成XLS(X)/CSV结果文件。 :

    - 乌云爬行者。暗云暴露了漏洞、知识库爬虫和搜索。所有公开的漏洞列表以及每个漏洞的文本内容均存在,约2G内容;如果把整个网站全部文字、图片爬取作为离线查询,大约需要10G空间,2小时左右(10M电信带宽);爬取整个知识库,总共约500M空间。漏洞搜索使用 Flask 作为 Web 和前端。 :

    2016.9.11 补充:

    -去哪儿爬虫。网络爬虫使用代理登录:爬取去哪儿网站,使用模拟浏览器登录,获取翻页操作。代理可以保存到文件中,程序可以读取和使用该文件。支持多进程爬取。 :

    - 机票爬虫(去哪儿、携程)。是一款基于机票的爬虫,目前整合了国内两大机票网站(去哪儿+携程)。 :

    - 基于网易客户端内容爬虫,。 :

    - 豆瓣电影、书籍、群、相册、东西等爬虫合集。 :

    https://img1.baidu.com/it/u=1492113959,4223105027&fm=253&fmt=JPEG&app=138&f=JPEG?w=656&h=500

    -QQ空间爬虫,包括日志、谈话、个人信息等,一天可爬取400万条数据。 :

    baidu-music-- 百度mp3全站爬虫,使用redis支持断点续传下载。 :

    - 淘宝、天猫爬虫可以根据搜索关键词和商品ID抓取页面信息,并将数据存储在:

    - 一个股票数据(沪深)爬虫及选股策略测试框架。根据选定的日期范围捕获所有上海和深圳股票市场的市场数据。支持使用表达式定义选股策略。支持多线程。将数据保存到 JSON 文件或 CSV 文件。

    --------------------------

    本项目包含各种网络爬虫实用开源代码,并将长期更新。欢迎补充。
页: [1]
查看完整版本: WechatSogou微信公众号爬虫、DouBanSpider豆瓣读书爬虫与zhihu_spider知乎爬虫详解