K.I.S.S---Keep IT Simple,Stupid!    人生苦短,我用Python

LLaMA

  • 名称:LLaMA
  • 分类:优秀开源项目
  • 标签:
  • 时间:2022年11月
  • 地址:https://github.com/facebookresearch/llama
  • 简介:
    由MetaAI的Facebook人工智能实验室(FAIR)发布的开放使用的预训练语言模型,模型在2022年11月到2023年2月之间训练的。 与其他大型语言模型一样,LLaMA的工作原理是将一连串的单词作为输入,并预测下一个单词,以递归地生成文本。

详情:

Meta 的 LLaMA 是“大型语言模型 Meta AI” (Large Language Model Meta AI)的缩写,它可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。

该公司将提供底层代码供用户使用,因此用户可以自行调整模型,并将其用于与研究相关的用例。Meta 表示,该模型对算力的要求“低得多”。

据介绍,该公司正在开发多种参数(7B、13B、33B 和 65B)的 LLaMA。其中,LLaMA 65B 和 LLaMA 33B 在 1.4 万亿个 tokens 上训练,而最小的模型 LLaMA 7B 也经过了 1 万亿个 tokens 的训练。

与其他大型语言模型一样,LLaMA 的工作原理是将一系列单词作为“输入”并预测下一个单词以递归生成文本。为了这套模型,Meta 从使用人数最多的 20 种语言中选择文本进行训练,重点是拉丁语和西里尔字母。

当然,与其他模型一样,LLaMA 也面临着偏见、有毒评论和幻觉的挑战,Meta 还需要做更多的研究来解决这类语言模型中的不足。

Meta 表示,LLaMA 作为一个基础模型被设计成多功能的,可以应用于许多不同的用例,而不是为特定任务设计的微调模型。通过开源 LLaMA 的代码,其他研究人员可以更轻松地找到限制或消除这些问题的新方法。Meta 还在本文中提供了一组评估模型偏差和毒性的基准评估标准,以显示模型的局限性并支持研究人员在这一关键领域的进一步研究。

模型列表

名称 大小 地址
LLMA-7B 25.1GB 下载
LLMA-13B 72.7GB 下载
LLMA-30B 151GB 下载
LLMA-65B 243GB 下载
LLMA-Smallint 76.2 GB

下载

 

模型概述

该模型的架构或多或少是标准的:在自然语言语料库上训练的仅解码器转换器(这次是完全公开的,这很好)。与其他LLM相比,超参数有一些调整,但最明显的变化是训练步骤的数量:作者指出,如果我们训练更小的LLM足够长的时间,损失会继续改善并达到与更大模型竞争的值。就训练计算分配而言,这可能是也可能不是最佳的,但在推理计算方面,它肯定比其他现有的 LLM 要好得多。

针对不同的模型大小发布了多个检查点:7B(十亿个参数)、13B、33B 和 65B。Facebook要求人们填写表格(可在Repo的 README.md 中找到)以获取下载链接;有趣的是,授予访问权限的标准是“.edu”TLD 中的电子邮件。有已经可用的带有检查点的种子,因此人们可以在不联系Facebook的情况下下载模型(他们应该注意模型许可证:权重可以免费用于研究,但不应该用于商业目的)。

 



注:当前文章会不定期进行更新。如果您对本文有更好的建议,有新资料推荐, 可以点击: 欢迎分享优秀网站
这个位置将来会放广告

我想等网站访问量多了,在这个位置放个广告。网站纯公益,但是用爱发电服务器也要钱啊 ----------狂奔的小蜗牛