K.I.S.S---Keep IT Simple,Stupid!    人生苦短,我用Python
   Python开源项目周排行               2024年第16周 1. VideoLingo -- 一站式视频翻译本地化配音工具,能够一键生成 Netflix 级别的高质量字幕,告别生硬机翻,告别多行字幕,还能加上高质量的配音,让全世界的知识能够跨越语言的障碍共享。主要特点和功能: 使用 yt-dlp 从 Youtube 链接下载视频 使用 WhisperX 进行单词级时间轴字幕识别 使用 NLP 和 GPT 根据句意进行字幕分割 2. OpenHands -- (先前称为OpenDevin)是一个基于人工智能的软件开发代理平台,旨在通过AI增强软件开发过程。该平台支持开发者执行各类任务,从代码编写到命令行操作,乃至网页浏览等,如同人类开发者一样工作。OpenHands采用MIT许可证发布,并强调社区驱动的开发模式。项目主要使用的编程语言为Python,同时项目运行依赖于Docker环境,这意味着熟悉容器化技术对贡献或使用本项目尤为重要。 3. learn_python3_spider -- python爬虫教程系列、从0到1学习python爬虫,包括浏览器抓包,手机APP抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及IP代理,验证码识别,Mysql,MongoDB数据库的python使用,多线程多进程爬虫的使用,css 爬虫加密逆向破解,JS爬虫逆向,分布式爬虫,爬虫项目实战实例等 4. crawlee-python -- 一个强大而灵活的工具,用于构建可靠的网络爬虫和数据提取系统。它支持从网站提取数据,下载HTML、PDF、JPG、PNG等文件,并可用于为AI、LLMs、RAG或GPTs等应用提供数据。特点: 支持HTTP和无头浏览器爬取 自动并行爬取 使用Python类型提示,提高开发体验 自动重试和错误处理 集成代理轮换和会话管理 可配置的请求路由 持久化URL队列 可插拔的数据存储系统 支持BeautifulSoup和Playwright 支持有头和无头模式 Crawlee-Python为开发者提供了一个全面的解决方案,可以处理从简单的HTML页面到复杂的JavaScript驱动的网站。它的设计目标是帮助开发者快速构建可靠的爬虫,同时提供足够的灵活性来应对各种网络抓取挑战。 5. HivisionIDPhotos -- 一个轻量级的AI证件照制作算法。它利用一套完善的AI模型工作流程,实现对多种用户拍照场景的识别、抠图与证件照生成。 HivisionIDPhoto 可以做到: 轻量级抠图(纯离线,仅需 CPU 即可快速推理) 根据不同尺寸规格生成不同的标准证件照、六寸排版照 支持 纯离线 或 端云 推理 美颜 智能换正装(waiting) 6. surya -- 一个OCR工具,旨在将图像中的文本转换为可编辑的文本格式。它利用先进的机器学习算法来提高识别精度,使得用户能够轻松提取图像中的信息。
   Python开源项目月排行               2024年10月 1. OpenHands -- (先前称为OpenDevin)是一个基于人工智能的软件开发代理平台,旨在通过AI增强软件开发过程。该平台支持开发者执行各类任务,从代码编写到命令行操作,乃至网页浏览等,如同人类开发者一样工作。OpenHands采用MIT许可证发布,并强调社区驱动的开发模式。项目主要使用的编程语言为Python,同时项目运行依赖于Docker环境,这意味着熟悉容器化技术对贡献或使用本项目尤为重要。 2. manim -- 一个用于创建数学动画的开源库。3b1b是该项目的主要作者,真实姓名为Grant Sanderson,他是一位数学教育者和YouTube内容创作者,以其频道“3Blue1Brown”而闻名。Grant通过生动的动画和直观的解释,使复杂的数学概念变得易于理解。他创建manim库,以便其他人能够使用相同的工具制作数学动画。 项目用途 manim的主要用途包括: 数学动画制作:用户可以使用manim创建高质量的数学动画,帮助解释和展示数学概念。 教育工具:教师和教育工作者可以利用该工具制作教学视频,增强学生对数学的理解。 可视化工具:研究人员和学生可以将抽象的数学理论可视化,使其更易于理解和分享。 3. learn_python3_spider -- python爬虫教程系列、从0到1学习python爬虫,包括浏览器抓包,手机APP抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及IP代理,验证码识别,Mysql,MongoDB数据库的python使用,多线程多进程爬虫的使用,css 爬虫加密逆向破解,JS爬虫逆向,分布式爬虫,爬虫项目实战实例等 4. crawlee-python -- 一个强大而灵活的工具,用于构建可靠的网络爬虫和数据提取系统。它支持从网站提取数据,下载HTML、PDF、JPG、PNG等文件,并可用于为AI、LLMs、RAG或GPTs等应用提供数据。特点: 支持HTTP和无头浏览器爬取 自动并行爬取 使用Python类型提示,提高开发体验 自动重试和错误处理 集成代理轮换和会话管理 可配置的请求路由 持久化URL队列 可插拔的数据存储系统 支持BeautifulSoup和Playwright 支持有头和无头模式 Crawlee-Python为开发者提供了一个全面的解决方案,可以处理从简单的HTML页面到复杂的JavaScript驱动的网站。它的设计目标是帮助开发者快速构建可靠的爬虫,同时提供足够的灵活性来应对各种网络抓取挑战。 5. surya -- 一个OCR工具,旨在将图像中的文本转换为可编辑的文本格式。它利用先进的机器学习算法来提高识别精度,使得用户能够轻松提取图像中的信息。 6. MinerU -- 一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。