K.I.S.S---Keep IT Simple,Stupid!    人生苦短,我用Python
# 2024年第3周 2024年1月30日
1 particle-life 粒子生命演化游戏。该项目通过定义粒子之间的相互作用力,从而生成复杂的自组织图案。源码十分简单,用户可以在线试玩,创造出各种有趣的图案。
2 StreamDiffusion 该项目能以惊人的速度生成 AIGC 图像,单张 RTX4090 显卡可达 100 张/秒。它通过流批处理简化数据处理,采用残差无分类器(RCFG)减少计算冗余,随机相似性过滤器提高 GPU 利用率,并通过优化 IO 队列实现并行处理。同时,利用多种模型加速工具,实现爆炸式地提升 AIGC 图像速度。
3 AnimateDiff 一款可以在 Stable Diffusion 中制作动图的库,支持将大多数开源模型转换为动画生成器。让原本通过文字生成的图片,变成 gif 图片动起来。
4 pyvideotrans 一个视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音。 语音识别基于 faster-whisper 离线模型. 文字翻译支持 google|baidu|tencent|chatGPT|Azure|Gemini|DeepL|DeepLX|离线翻译OTT , 文字合成语音支持 Microsoft Edge tts Openai TTS-1 Elevenlabs TTS 允许保留背景伴奏音乐等(基于uvr5)
5 awesome-admin . 优秀的后台管理框架集合
6 marker 将PDF格式转换成MARKDOWN格式
7 de4py 一款高级 python 反混淆器,拥有漂亮的用户界面和一系列高级功能,可帮助恶意软件分析师和反向工程师对 python 文件等进行反混淆。
8 dreamtalk 一种基于 diffusion 的音频驱动型表情包生成框架,可以生成高质量的表情包视频,涵盖多种说话风格。DreamTalk 在处理各种输入(包括歌曲、多语言语音、嘈杂音频和域外肖像)时表现出强劲的性能。具体来说,DreamTalk 由三个关键组件组成:去噪网络、风格感知唇部专家和风格预测器。基于扩散的去噪网络能够一致地合成不同表情的高质量音频驱动的面部运动。为了增强唇部动作的表现力和准确性,项目团队引入了风格感知型唇部专家,可以指导唇部同步,同时注意说话风格。为了消除对表情参考视频或文本的需要,利用额外的基于扩散的风格预测器直接从音频预测目标表情。通过这种方式,DreamTalk 可以利用强大的扩散模型有效地生成富有表现力的面孔,并减少对昂贵的风格参考的依赖。 实验结果表明,DreamTalk 能够生成具有多种说话风格的逼真说话面孔,并实现准确的嘴唇动作,超越了现有最先进的同类产品。
9 telechat 星辰语义大模型 TeleChat 是由中电信人工智能科技有限公司研发训练的大语言模型,采用 1.5 万亿 Tokens 中英文高质量语料进行训练。 本次开源了对话模型 TeleChat-7B-bot,以及其 huggingface 格式的权重文件。此外,还开源了 7B 模型的 int8 和 int4 量化版本。
10 ant-engine 由灵犀互娱开发的开源游戏引擎。现阶段仅将代码仓库公开,尚未正式发布。文档、示例等均待在 Wiki 上逐步完善。
11 qanything (Question and Answer based on Anything) 是致力于支持任意格式文件或数据库的本地知识库问答系统,可断网安装使用。 你的任何格式的本地文件都可以往里扔,即可获得准确、快速、靠谱的问答体验。 目前已支持格式:PDF,Word(doc/docx),PPT,Markdown,Eml,TXT,图片(jpg,png 等),网页链接.特点 数据安全,支持全程拔网线安装使用。 支持跨语种问答,中英文问答随意切换,无所谓文件是什么语种。 支持海量数据问答,两阶段向量排序,解决了大规模数据检索退化的问题,数据越多,效果越好。 高性能生产级系统,可直接部署企业应用。 易用性,无需繁琐的配置,一键安装部署,拿来就用。 支持选择多知识库问答。
12 honeybee 由韩国 Kakao 开发的一个多模态大语言模型(MLLM)。构建在 MLLM 基础上,能够同时理解图像和文本,从而能够响应与混合图像和文本内容相关的查询。




注:当前文章会不定期进行更新。如果您对本文有更好的建议,有新资料推荐, 可以点击: 欢迎分享优秀网站