当前位置：首页

阿里云通义千问系列 AI 开源模型升至 Qwen2：5 个尺寸、上下文长度最高支持 128K tokens

爱AI工具库 2024-06-07

感谢IT之家网友 killgfat 的线索投递！
6 月 7 日，通义千问（Qwen）今天宣布经过数月的努力，Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级，并已在 Hugging Face 和 ModelScope 上同步开源。IT之家附上 Qwen 2.0 主要内容如下：5 个尺寸的预训练和指令微调模型，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B在中文英语的基础上，训练数据中增加了 27 种语言相关的高质量数据；多个评测基准上的领先表现；代码和数学能力显著提升；增大了上下文长度支持，最高达到 128K tokens（Qwen2-72B-Instruct）。模型基础信息Qwen2 系列包含 5 个尺寸的预训练和指令微调模型，其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。模型Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B参数量0.49B1.54B7.07B57.41B72.71B非 Embedding 参数量0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTie EmbeddingTrueTrueFalseFalseFalse上下文长度32K32K128K64K128K在 Qwen1.5 系列中，只有 32B 和 110B 的模型使用了 GQA。这一次，所有尺寸的模型都使用了 GQA，以便让大家体验到 GQA 带来的推理加速和显存占用降低的优势。模型评测相比 Qwen1.5，Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。在针对预训练语言模型的评估中，对比当前最优的开源模型，Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型，如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。IT之家附上参考地址你好，Qwen2

来源：

IT之家