[国外] 大数据初创公司 Unstructed 融资 4000 万美元

WX20240315-093139@2x.png

生成式人工智能数据处理初创公司Unstructed Technologies Inc.完成了不到一年内的第二轮重大融资,宣布融资4000 万美元。

今天的 B 轮融资由 Menlo Ventures 领投,众多知名投资者参与其中,包括 Nvidia Corp. 的风险投资部门、IBM Ventures、Databricks Ventures 以及萨克拉门托国王队 (Sacramento Kings) 主席 Vivek Ranadivé、Datastax Inc. 首席执行官等天使投资人。新常态基金的执行官切特·卡普尔和艾莉森·皮肯斯。

包括 Madrona、Bain Capital Ventures 和 Mango Capital 在内的现有投资者也参与了本轮融资,此前该轮融资于2023 年 7 月宣布筹集 2500 万美元。总而言之,Unstructed 目前已筹集超过 6500 万美元的资金。

非结构化之所以受到广泛关注,是因为它是将非结构化数据(例如图像、书面笔记、音频、视频等)转换为大型语言模型可以轻松读取的格式领域的先驱。对于许多公司来说,这是一个非常有趣的主张,因为LLM是一类人工智能模型,为 OpenAI 的 ChatGPT 和 Google LLC 的 Gemini 等生成式人工智能服务提供动力,很少有人需要提醒它们如今有多受欢迎。

该初创公司指出,全球超过一半的组织在过去一年中加大了对生成人工智能技术的投资,但他们面临着巨大的数据挑战。尽管由于现代数据堆栈的创新,结构化数据早已可用于高级分析,但要利用非结构化数据却没有简单的方法,非结构化数据占企业存储的所有信息的 80% 以上。如果生成式人工智能能够找到一种更轻松地访问这些信息的方法,那么它的能力可能会大大提高,并使聊天机器人和其他应用程序比以往任何时候都更强大。

这是 Unstructed 决心解决的挑战,它声称是第一家也是唯一一家能够将任何非结构化数据类型提取并转换为LLM可以立即使用的格式的公司。

该初创公司为客户提供的平台提供三个起点:开源 Python 库、容器和云托管应用程序编程接口。该 API 可以处理 20 多种自然语言文件类型,包括原始数据和 LLM 就绪文件。它配备了多个企业级数据连接器到服务,包括微软公司的Azure Blob和OneDrive、亚马逊网络服务公司的S3、谷歌有限责任公司的云存储和谷歌驱动器,以及Dropbox和Elasticsearch。

Unstructured 由美国中央情报局分析师 Brian Raymond 于 2022 年创立,与开源社区、商业企业以及许多美国政府国防和情报组织合作开发其技术。该初创公司已获得美国空军和太空军授予的第一阶段和第二阶段小型企业创新和研究合同,并获得美国特种作战司令部的额外支持。

自同年推出平台以来,Unstructed 已成为希望将LLM投入生产的组织的宝贵工具。其技术使用户能够自动转换非结构化数据格式,并使其可用于 LLM 培训、微调和检索增强生成(RAG),这是预训练的生成人工智能模型可以访问额外数据以增强其知识的地方。

首席执行官 Raymond 表示,嵌套在 RAG 架构中的LLM的开发使公司能够基于非结构化数据构建新一代LLM和分析产品。 “开发人员第一次能够通过大型基础模型与所有数据进行交互,”他说。

Raymond 表示,摄取和预处理人类生成数据的能力是实现LLM价值的关键瓶颈,他的公司将帮助组织克服这一瓶颈。他说:“2024 年将是LLM原型投入生产的一年,各种类型和规模的组织都渴望高效、大规模地构建这些架构。” “对于想要在这一新技术堆栈上构建解决方案并快速推向市场的企业来说,自动化构建数据并将其无缝交付到存储中的过程至关重要。”

Constellation Research Inc. 副总裁兼首席分析师Andy Thurai告诉 SiliconANGLE,数据准备是人工智能开发中被遗忘的方面之一,因为这样做的任务远没有即时工程、RAG 和实际的最终产品、LLM那么令人兴奋。但他表示,这是一个可以从自动化中获益匪浅的领域,因为数据科学家将大部分时间花在准备数据上。

“非结构化数据可能真的很混乱,主要是因为没有既定的标准,而且很难在其中找到意义,”图赖说。 “虽然矢量数据库有助于存储非结构化数据,但准备将数据放入矢量数据库或数据湖是一个相当大的挑战。”

正是因为这一挑战,Unstructured 相信其平台已经成为生成式 AI 项目的关键基础设施,将信息转换为 LLM 就绪数据,并使其与矢量数据库兼容,矢量数据库将非结构化信息存储为可访问的数字表示形式更容易。该公司声称,无需任何定制,它可以帮助推动生成式 AI 应用程序性能提高高达 20%。

这家初创公司表示,这就是其开源库下载量超过 600 万次的原因。它被超过 12,000 个代码库和超过 45,000 个组织使用,其中包括超过三分之一的财富 500 强企业。

一月份,Unstructed 首次推出了商业软件即服务 API,并已积累了 1,000 多名付费客户。接下来的一个月,它推出了其企业平台,据称这是世界上第一个能够从现有数据库中持续提取原始信息并近乎实时地将其转换为LLM就绪格式,然后将其加载到矢量数据库中的平台。

它提供了一个关键优势,因为研究表明数据科学家将超过四分之三的时间花在数据准备上。该公司表示,通过提供对最新非结构化数据的连续、实时访问,Unstructed 能够独特地使LLM保持最新状态。

Thurai 表示,Unstructed 并不是唯一用于非结构化信息的数据准备工具,但他指出,此类工具并未得到广泛使用,因为许多企业仍在进行大量手动工作。更重要的是,这项工作变得越来越困难,他说,因为最先进的LLM需要比早期模型更多的数据。 Thurai 表示:“Unstructed 的开源下载确实具有良好的吸引力,最近发布的企业版平台通过不断从现有数据库中提取原始、非结构化数据来为公司提供更多帮助,这在以前是不可能的。” “Unstructured 的工具对于需要使用原始非结构化信息来处理 RAG 工作负载的企业来说非常有用,特别是考虑到它能够为模型提供持续更新的最新信息。”

Menlo Ventures 合伙人 Tim Tully 毫不奇怪地使用了更多最高级的词,他表示 Unstructed 已经构建了一个“特殊的平台”,可以改变开发人员为 RAG、人工智能应用程序、聊天机器人等构建新数据管道的方式。 “它已成为开发人员构建人工智能应用程序和组装数据管道的首选方式,”他说。 “业内人士都知道,RAG 很快就成为了行业标准。很快他们就会明白 Unstructed 是 RAG 矛的尖端。”

Unstructured 表示,将利用本轮融资的资金来发展其工程和销售团队,并加快针对LLM的数据预处理工具的开发。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海