11月18日,阿里云宣布(https://mp.weixin.qq.com/s/11zJznHplISwYd8Tbf8uFA)推出Qwen2.5-Turbo版本,标志着长文本处理能力的重大进步。新版本将模型上下文长度从128k tokens扩展至1M tokens,相当于100万个英文单词或150万个汉字,能够处理相当于10本长篇小说或150小时演讲稿的文本量。在1M长度的Passkey Retrieval任务中,Qwen2.5-Turbo准确率达到100%,在长文本评测集RULER上得分93.1分,超越GPT-4的91.6分。
Qwen2.5-Turbo不仅在长文本处理上表现出色,其推理速度也得到显著提升。利用稀疏注意力机制,处理1M tokens上下文的首字返回时间从4.9分钟降低至68秒,实现了4.3倍的加速比。此外,Qwen2.5-Turbo的价格保持在0.3元/1M tokens,相比GPT-4o-mini,能够处理3.6倍的Token。 用户现可通过阿里云百炼API服务、Hugging Face Demo或魔搭社区ModelScope Demo体验Qwen2.5-Turbo。阿里云提供的Python调用示例展示了Qwen2.5-Turbo与OpenAI API的兼容性,简化了长文本处理的接入流程。 在性能测试中,Qwen2.5-Turbo在RULER基准测试中取得93.1分,超越GPT-4o-mini,证明了其处理长文本任务的卓越能力。同时,在LV-Eval、LongBench-Chat等接近真实情况的长文本任务中,Qwen2.5-Turbo在多数维度超越了GPT-4o-mini,并能扩展到超过128K tokens上下文的问题。
阿里云表示,尽管Qwen2.5-Turbo在长文本处理上取得了显著进展,但仍存在挑战,如模型在长序列任务中的表现不稳定和推理成本较高。 阿里云百炼: https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm 魔搭社区ModelScope: https://www.modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo Hugging Face: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
|