K.I.S.S---Keep IT Simple,Stupid!    人生苦短,我用Python
汇集了Github,Gitee上等优秀的 Python爬虫开源项目
# Python爬虫开源项目 2024年7月24日
1 crawlee-python 一个强大而灵活的工具,用于构建可靠的网络爬虫和数据提取系统。它支持从网站提取数据,下载HTML、PDF、JPG、PNG等文件,并可用于为AI、LLMs、RAG或GPTs等应用提供数据。特点: 支持HTTP和无头浏览器爬取 自动并行爬取 使用Python类型提示,提高开发体验 自动重试和错误处理 集成代理轮换和会话管理 可配置的请求路由 持久化URL队列 可插拔的数据存储系统 支持BeautifulSoup和Playwright 支持有头和无头模式 Crawlee-Python为开发者提供了一个全面的解决方案,可以处理从简单的HTML页面到复杂的JavaScript驱动的网站。它的设计目标是帮助开发者快速构建可靠的爬虫,同时提供足够的灵活性来应对各种网络抓取挑战。
2 MediaCrawler 一款功能强大的爬虫工具,可以用于抓取小红书、抖音、快手、B站和微博等主流社交媒体平台的视频、图片、评论、点赞、转发等信息。原理:利用playwright搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数 通过使用此方式,免去了复现核心加密JS代码,逆向难度大大降低
3 awesome-web-scraping 这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等
4 Photon 个使用 Python 构建的功能强大且易于使用的 web 爬虫程序。s0md3v 的轻量级和快速爬虫遵循开源智能框架的指导方针和方法,该框架允许收集和分析从开放或公共来源获取的信息。 Photon 可以从中抓取信息的许多来源包括: URL,包括带参数的URL 社交媒体账户、电子邮件 pdf、png、XML文档等文件 子域 JavaScript文件 Photon 以有组织的方式保存所有提取的信息,甚至可以导出为 JSON 文件。该工具还提供了各种选项来自定义它的工作方式,比如控制超时,排除一些 url 等等。
5 google-images-download 允许我们一次性从 Google 上下载数百张图片到本地计算机。此工具的工作方式是安装库、使用命令、将所需的关键字作为参数,以及让该工具发挥其神奇的作用。本质上是在google images 索引中搜索带有指定关键字的图片,找到后就进行下载。
6 networkx 强大的 Python 网络分析库。这是一个用来创建、操作和研究复杂网络结构的 Python 库,内置常用的数据结构和图算法,支持生成无向图(Graph)、有向图(DiGraph)、多重无向图(MultiGraph)、多重有向图(MultiDiGraph),可用于图论研究、原型设计、教学等场景。
7 webdriver_manager 轻松管理 WebDriver 的 Python 库。经常写爬虫的小伙伴应该都遇到过找 WebDriver 路径的情况吧!用了这个项目,将无需一次又一次地重复寻找 WebDriver 在哪里啦。
8 mwmbl 一个用 Python 写的开源、非营利搜索引擎。这是一款采用 pandas、FastAPI、scikit-learn、jusText 构建的非营利、无广告、无跟踪的小型搜索引擎,它界面简约、速度快,搜索结果无“外界因素”干扰。
9 XHS-Downloader About 免费、轻量、开源,基于 AIOHTTP 模块实现:小红书图文/视频作品采集工具。 采集小红书图文/视频作品信息 ✅ 提取小红书图文/视频作品文件下载地址 ✅ 下载小红书无水印图文/视频作品文件 ✅ 自动跳过已下载的作品文件 ✅ 作品文件完整性处理机制 ☑️ 采集作品信息储存至文件
10 weiboSpider Python 写的微博爬虫,命令行直接启动。支持获取微博用户、内容字段丰富。虽然爬虫的实战项目很多,但能一直更新的很少,因为只要数据源变动爬虫就要跟进迭代。
11 MechanicalSoup Python 新浪微博爬虫,自动与网站交互的轻量级 Python 库。我们写爬虫一般是请求+解析两步走,该项目将 Requests(请求) 和 BeautifulSoup(解析) 两大 Python 爬虫常用库,封装成一个浏览器对象(StatefulBrowser),将上面说的两步并成一步。后面仅需一个浏览器对象,就可以完成请求页面、过滤内容、提交表单、跳转地址等操作,使得代码更加简单、操作更加方便。又因为它不依赖浏览器进程,所以相较于 Selenium 它更加轻巧,但缺点是不支持 JS 动态渲染的页面。
12 DrissionPage DrissionPage 是一个基于 python 的网页自动化工具。 它既能控制浏览器,也能收发数据包,还能把两者合而为一。 可兼顾浏览器自动化的便利性和 requests 的高效率。 它功能强大,内置无数人性化设计和便捷功能。 它的语法简洁而优雅,代码量少,对新手友好。
13 EasySpider 一个可视化爬虫软件,可以使用图形化界面,无代码可视化的设计和执行爬虫任务。只需要在网页上选择自己想要爬的内容并根据提示框操作即可完成爬虫设计和执行。同时软件还可以单独以命令行的方式进行执行,从而可以很方便的嵌入到其他系统中。
14 Price-Tracking-Web-Scraper 可以爬取追踪亚马逊价格的一个爬虫。但也可以通过配置抓取其它网站价格信息。
15 feapder 一款上手简单,功能强大的 Python 爬虫框架,内置 AirSpider、Spider、TaskSpider、BatchSpider 四种爬虫解决不同场景的需求。命名源于 fast-easy-air-pro-spider 缩写。 支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。更有功能强大的爬虫管理系统 feaplat 为其提供方便的部署及调度。
16 TikTokDownloader TikTok 主页/视频/图集/原声;抖音主页/视频/图集/收藏/直播/原声/合集/评论/账号/搜索/热榜数据采集工具:完全开源,基于 Requests 模块实现的免费工具;批量下载抖音账号发布、喜欢、收藏作品;批量下载 TikTok 账号主页作品;下载抖音链接或 TikTok 链接作品;获取抖音直播推流地址;下载抖音直播视频;采集抖音作品评论数据;批量下载抖音合集作品;采集抖音账号详细数据;采集抖音用户 / 作品 / 直播搜索结果;采集抖音热榜数据。
17 MediaCrawler-new 小红书爬虫,抖音爬虫, 快手爬虫, B站爬虫, 微博爬虫...。 目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。 原理:利用playwright搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数 通过使用此方式,免去了复现核心加密JS代码,逆向难度大大降低




注:当前文章会不定期进行更新。如果您对本文有更好的建议,有新资料推荐, 可以点击: 欢迎分享优秀网站