会员升级
通义千问2-7b(Qwen2-7b-Chat)
标签:
llama2Chatqwen2ggufq4_K_MPyTorchTransformer
模型介绍:
Qwen 2接受了包括英语和汉语在内的29种语言的数据培训。它有4种参数模型: 0.5 B,1.5 B,7B,72B。在7B 和72B 模型中,上下文长度已经扩展到128k 令牌。 与最先进的开源语言模型(包括之前发布的 Qwen 1.5)相比,Qwen 2已经普遍超越了大多数开源模型,并在语言理解、语言生成、多语言能力、编码、数学、推理等一系列基准上展示了与专有模型的竞争力。 Qwen2是一个语言模型系列,包括不同模型大小的解码器语言模型。对于每个大小,我们发布基本语言模型和对齐聊天模型。它基于变压器结构,具有 SwiGLU 激活、注意 QKV 偏置、组查询注意等功能。
硬件要求:
CPU配置:CPU最低第六代intel酷睿4核,AMD ZEN 4核以上;推荐12代intel酷睿8核,AMD ZEN 8核以上
内存要求:运行内存16G及以上
Qwen 2的模型亮点:
代码 & 数学 我们持续投入提升Qwen的代码及数学能力。在代码方面,我们成功将CodeQwen1.5的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。
长文本处理 Qwen2系列中的所有Instruct模型,均在32k上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。 下图展示了我们在Needle in a Haystack测试集上的结果。值得注意的是,Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。结合其本身强大的性能,只要有充足的算力,它一定能成为你处理长文本任务的首选! 此外,Qwen2系列中的其他模型的表现也十分突出:Qwen2-7B-Instruct几乎完美地处理长达128k的上下文;Qwen2-57B-A14B-Instruct则能处理64k的上下文长度;而该系列中的两个较小模型则支持32k的上下文长度。 除了长上下文模型,我们还开源了一个智能体解决方案,用于高效处理100万tokens级别的上下文。
© 2024 FlashAI.com.cn 版权所有