2月28日消息,Writer公司推出具有视觉功能的多模态LLM----Palmyra-Vision。
“我们的客户生活在多媒体世界中,在日常工作流程中处理的媒介不仅仅是文本。今天,我们很高兴推出 Palmyra-Vision,这是我们用于视觉和语言理解的多模式LLM,它可以根据图像分析和生成文本。”在 Writer,重点提供企业生成式人工智能,让人们更轻松地生成高质量的书面输出。
划重点
- Palmyra-Vision是Writer开发的具有视觉功能的多模态LLM,可以根据图像分析和生成文本。
- 它擅长提取手写文本、对对象进行分类、分析图形和图表以及根据视觉输入回答特定问题等任务。Palmyra-Vision 在 VQAv2 基准测试中取得了 84.4% 的分数,优于其他著名的多模态模型。
- Palmyra-Vision 在企业中提供一系列实际应用,包括产品描述生成、解释图表和图形、合规性检测、通过创建 ALT 描述来提高可访问性以及从手写报告中提取文本。
最先进的精度
Palmyra-Vision 擅长执行一系列任务,包括提取手写文本、对对象或颜色进行分类以及描述图表、图表、信息图表和流程图。它不仅可以理解视觉效果,还可以回答特定问题、分析图表并根据图像生成新内容。
我们将 Palmyra-Vision 与 VQAv2 进行了基准测试,VQAv2 是一个包含超过 265,000 张图像的开放式问题数据集,需要理解视觉、语言和常识知识。Palmyra-Vision 的得分为 84.4%,优于 GPT-4V 和 Gemini 1.0 Ultra。
高影响力的企业用例
Palmyra-Vision 的准确性和功能可在企业中实现广泛的高影响力用例。这里仅举几个例子:
- 合规团队必须确保宣传材料合规。例如,制药公司可以使用 Palmya-Vision 检查其药物广告是否符合医疗、法律和监管标准。
- 零售公司需要生成数千个产品描述页面来推动其电子商务业务。运营团队可以使用 Palmyra-Vision 快速起草高质量的产品描述,从而缩短上市时间并提高转化率。
- 对于那些经常使用图表和图表的人来说,Palmyra-Vision 可以帮助您快速解读这些图像并总结关键要点,从而提高工作效率。例如,财务顾问可以快速创建每个客户的投资组合分配和绩效的摘要。
- 客户体验团队可以使用 Palmyra-Vision 快速起草 ALT 描述,以提高可访问性并增强 SEO 性能。
- 需要对手写报告进行数字化的公司,例如处理索赔书面报告的保险公司或处理医疗报告医生笔记的医疗保健公司,可以使用Palmyra-Vision 进行文本提取,即使手写质量较低。
客户可以使用图像分析器应用程序访问视觉功能,该应用程序现已在预构建应用程序的 Writer 库中提供。客户还可以使用Palmyra-Vision 构建自定义应用程序,以适应特定的用例,同时考虑定制输入要求和结构化输出标准。
LLM的最新创新 Palmyra 是 Writer 系列LLM,专为企业打造,提供准确性和控制力,且无需高昂成本。Palmyra-Vision只是一系列模型创新中的最新成果。 Palmyra 支持30 多种语言的多语言功能,包括西班牙语、法语、中文、印地语、阿拉伯语和俄语。Palmyra 在最新的斯坦福 HELM 评估中取得了出色的成绩,在关键基准测试中的生产就绪模型中名列前茅,并超越了 OpenAI、Google 和 Anthropic 的模型。
|