360公司在 GitHub 上开源了 360 智脑 7B大模型

小哪吒

本帖最后由小哪吒于 4-12 23:00 编辑

4月12日消息，360公司近日在GitHub（https://github.com/Qihoo360/360zhinao）上开源了360智脑7B（70亿参数模型）。该模型使用了3.4万亿Tokens的语料库进行训练，主要以中文、英文和代码为主，并支持4K、32K、360K三种不同文本长度的输入。360公司宣称，360K（约50万字）的输入长度是目前国内开源模型中最长的。

360公司表示，他们在OpenCompass的主流评测数据集上验证了模型的性能，这些数据集包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA等，覆盖的能力有自然语言理解、知识掌握、数学计算和推理、代码生成、逻辑推理等。在这些评测中，360模型在四个数据集上取得了第一名，平均得分排名第三。

在LongBench（一个针对大语言模型长文本理解能力的多任务、中英双语评测基准）测试中，360选取了与中文长文本应用最密切相关的任务，如中文单文档问答、多文档问答、摘要、Few-shot等进行评测。360Zhinao-7B-Chat-32K模型在这些任务中取得了平均分第一名的优异成绩。

在英文“大海捞针”测试（NeedleInAHaystack，一种测试大模型长文本理解能力的方法，通过将关键信息插入长文本的不同位置，然后对这些信息进行提问）中，360Zhinao-7B-Chat-360K模型达到了98%以上的准确率。360公司还仿照SuperCLUE-200K的测评基准，构造了中文“大海捞针”测试，并同样实现了98%以上的准确率。

除了模型权重，该模型的微调训练代码、推理代码等全套工具集也一并开源，使得大模型相关开发者能够“开箱即用”。

周鸿祎曾表示，大模型行业之前在卷文本长度，100万字“很快将成为标配”。他还提到，“我们打算将这个能力开源，大家没有必要重复造轮子，将输入长度定为360K主要是为了讨个好彩头。”周鸿祎自称是“开源的信徒”，坚信开源的力量。

[行业动态] 360公司在 GitHub 上开源了 360 智脑 7B大模型

相关帖子

Meta 确认下月发布开源大型语言模型Llama 3

李彦宏内部讲话曝光：提及文心大模型决定不开源的原因

阿里发布开源代码大模型CodeQwen1.5

Meta发布最新开源大模型Llama 3，声称它是最好的开放模型之一

4月AI产品增速榜出炉，周鸿祎的360AI搜索领跑全球！