Python爬虫开源项目- Python学习导航

汇集了Github,Gitee上等优秀的 Python爬虫开源项目

#	Python爬虫开源项目	2025年5月1日
1	crawl4ai	核心功能是爬取网页并将内容转化为适合 AI 应用（尤其是大语言模型）的格式。它不仅能提取原始 HTML，还能生成干净的 Markdown 和 JSON 格式的结构化数据.Crawl4AI 的设计目标是速度快、灵活性高且易于部署。它支持异步爬取、自定义 JavaScript 执行、多种爬取策略（Playwright 和 HTTP），并提供 Docker 部署选项，满足不同用户的需求。项目特点与优势高性能：比传统爬虫快 10-20 倍，支持异步操作和深度爬取（BFS/DFS/BestFirst 策略）。 AI 友好：内置 LLM 优化功能，如智能内容过滤和语义分块。开源与社区驱动：完全免费，拥有活跃的 Discord 社区（https://discord.gg/jP8KfhDhyN），用户可参与开发。灵活性：支持 Playwright 和 HTTP 爬取策略，可执行自定义 JavaScript，适应复杂网页。易部署：提供 Docker 镜像和 CLI 接口，适合本地或云端使用。unclecode 是 Crawl4AI 的主要开发者，unclecode 创建 Crawl4AI 的初衷源于他在 2023 年开发一个工具时遇到的挫折。当时，他需要一个网页爬虫将网页转为 Markdown 格式，但发现现有的解决方案要么收费昂贵（16 美元的 SaaS 模式），要么质量不佳。于是，他凭借“愤怒驱动开发”的动力，在几天内打造了 Crawl4AI，并将其开源。他希望通过这个项目回馈开源社区，并让数据获取对所有人开放，而不是被少数公司垄断。
2	ECommerceCrawlers	实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目.通过每个项目的 readme，了解爬取过程分析。
3	curl_cffi	模拟浏览器指纹的 HTTP 客户端。这是一个用 Python 写的 HTTP 客户端库，可以模拟浏览器 TLS、JA3 和 HTTP/2 指纹。它开箱即用、速度快，并且支持 WebSocket 和异步。
4	crawlee-python	一个强大而灵活的工具，用于构建可靠的网络爬虫和数据提取系统。它支持从网站提取数据，下载HTML、PDF、JPG、PNG等文件，并可用于为AI、LLMs、RAG或GPTs等应用提供数据。特点：支持HTTP和无头浏览器爬取自动并行爬取使用Python类型提示，提高开发体验自动重试和错误处理集成代理轮换和会话管理可配置的请求路由持久化URL队列可插拔的数据存储系统支持BeautifulSoup和Playwright 支持有头和无头模式 Crawlee-Python为开发者提供了一个全面的解决方案，可以处理从简单的HTML页面到复杂的JavaScript驱动的网站。它的设计目标是帮助开发者快速构建可靠的爬虫，同时提供足够的灵活性来应对各种网络抓取挑战。
5	MediaCrawler	一款功能强大的爬虫工具，可以用于抓取小红书、抖音、快手、B站和微博等主流社交媒体平台的视频、图片、评论、点赞、转发等信息。原理：利用playwright搭桥，保留登录成功后的上下文浏览器环境，通过执行JS表达式获取一些加密参数通过使用此方式，免去了复现核心加密JS代码，逆向难度大大降低
6	awesome-web-scraping	这里面收集了有关网络爬虫的各种资料、工具库的列表，不仅仅是 Python，还有 Go、Ruby、JavaScript、PHP 等等
7	Photon	个使用 Python 构建的功能强大且易于使用的 web 爬虫程序。s0md3v 的轻量级和快速爬虫遵循开源智能框架的指导方针和方法，该框架允许收集和分析从开放或公共来源获取的信息。 Photon 可以从中抓取信息的许多来源包括： URL，包括带参数的URL 社交媒体账户、电子邮件 pdf、png、XML文档等文件子域 JavaScript文件 Photon 以有组织的方式保存所有提取的信息，甚至可以导出为 JSON 文件。该工具还提供了各种选项来自定义它的工作方式，比如控制超时，排除一些 url 等等。
8	google-images-download	允许我们一次性从 Google 上下载数百张图片到本地计算机。此工具的工作方式是安装库、使用命令、将所需的关键字作为参数，以及让该工具发挥其神奇的作用。本质上是在google images 索引中搜索带有指定关键字的图片，找到后就进行下载。
9	networkx	强大的 Python 网络分析库。这是一个用来创建、操作和研究复杂网络结构的 Python 库，内置常用的数据结构和图算法，支持生成无向图(Graph)、有向图(DiGraph)、多重无向图(MultiGraph)、多重有向图(MultiDiGraph)，可用于图论研究、原型设计、教学等场景。
10	webdriver_manager	轻松管理 WebDriver 的 Python 库。经常写爬虫的小伙伴应该都遇到过找 WebDriver 路径的情况吧！用了这个项目，将无需一次又一次地重复寻找 WebDriver 在哪里啦。
11	mwmbl	一个用 Python 写的开源、非营利搜索引擎。这是一款采用 pandas、FastAPI、scikit-learn、jusText 构建的非营利、无广告、无跟踪的小型搜索引擎，它界面简约、速度快，搜索结果无“外界因素”干扰。
12	XHS-Downloader	About 免费、轻量、开源，基于 AIOHTTP 模块实现：小红书图文/视频作品采集工具。采集小红书图文/视频作品信息 ✅ 提取小红书图文/视频作品文件下载地址 ✅ 下载小红书无水印图文/视频作品文件 ✅ 自动跳过已下载的作品文件 ✅ 作品文件完整性处理机制 ☑️ 采集作品信息储存至文件
13	weiboSpider	Python 写的微博爬虫，命令行直接启动。支持获取微博用户、内容字段丰富。虽然爬虫的实战项目很多，但能一直更新的很少，因为只要数据源变动爬虫就要跟进迭代。
14	MechanicalSoup	Python 新浪微博爬虫，自动与网站交互的轻量级 Python 库。我们写爬虫一般是请求+解析两步走，该项目将 Requests(请求) 和 BeautifulSoup(解析) 两大 Python 爬虫常用库，封装成一个浏览器对象(StatefulBrowser)，将上面说的两步并成一步。后面仅需一个浏览器对象，就可以完成请求页面、过滤内容、提交表单、跳转地址等操作，使得代码更加简单、操作更加方便。又因为它不依赖浏览器进程，所以相较于 Selenium 它更加轻巧，但缺点是不支持 JS 动态渲染的页面。
15	DrissionPage	DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大，内置无数人性化设计和便捷功能。它的语法简洁而优雅，代码量少，对新手友好。
16	EasySpider	一个可视化爬虫软件，可以使用图形化界面，无代码可视化的设计和执行爬虫任务。只需要在网页上选择自己想要爬的内容并根据提示框操作即可完成爬虫设计和执行。同时软件还可以单独以命令行的方式进行执行，从而可以很方便的嵌入到其他系统中。
17	Price-Tracking-Web-Scraper	可以爬取追踪亚马逊价格的一个爬虫。但也可以通过配置抓取其它网站价格信息。
18	feapder	一款上手简单，功能强大的 Python 爬虫框架，内置 AirSpider、Spider、TaskSpider、BatchSpider 四种爬虫解决不同场景的需求。命名源于 fast-easy-air-pro-spider 缩写。支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。更有功能强大的爬虫管理系统 feaplat 为其提供方便的部署及调度。
19	TikTokDownloader	TikTok 主页/视频/图集/原声；抖音主页/视频/图集/收藏/直播/原声/合集/评论/账号/搜索/热榜数据采集工具：完全开源，基于 Requests 模块实现的免费工具；批量下载抖音账号发布、喜欢、收藏作品；批量下载 TikTok 账号主页作品；下载抖音链接或 TikTok 链接作品；获取抖音直播推流地址；下载抖音直播视频；采集抖音作品评论数据；批量下载抖音合集作品；采集抖音账号详细数据；采集抖音用户 / 作品 / 直播搜索结果；采集抖音热榜数据。
20	MediaCrawler-new	小红书爬虫，抖音爬虫，快手爬虫， B站爬虫，微博爬虫...。目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。原理：利用playwright搭桥，保留登录成功后的上下文浏览器环境，通过执行JS表达式获取一些加密参数通过使用此方式，免去了复现核心加密JS代码，逆向难度大大降低

分类： Python网络爬虫标签：

注:当前文章会不定期进行更新。如果您对本文有更好的建议，有新资料推荐，可以点击：欢迎分享优秀网站。