本帖最后由 小哪吒 于 3-28 00:56 编辑
公司简介
创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。团队成员人数在100人至200人之间。
联系地址:北京市海淀区知春路量子芯座16层1602
创始人/核心人员 杨植麟——本科毕业于清华大学计算机科学与技术系,博士就读于全美自然语言处理排名第一的卡内基梅隆大学语言技术研究所(LTI),曾与多名图灵奖得主合作发表论文,是“盘古”、“悟道”等国内最早大模型技术贡献者。
周昕宇是月之暗面的算法团队负责人,清华大学2011级本科生,和杨植麟韬同为计算机系的学生。周昕宇在毕业后选择加入旷视,工作内容是算法量产。就职期间,他和旷视研究院基础科研负责人、ResNet作者之一张祥雨合作研究移动端模型,以共同一作的身份撰写ShuffleNet论文,被CVPR接受。
吴育昕毕业于清华和CMU,研究方向为计算机视觉中的检测和识别问题。毕业后他先是在Meta的FAIR工作,曾和AI大神何恺明共同提出组归一化(GN)的方法。 张宇韬是月之暗面联合创始人兼CTO,师从清华大学计算机系副系主任、数据挖掘顶级专家唐杰教授,和杨植麟是同门师兄关系。
产品服务 Kimi智能助手(To C):免费
Moonshot 开放平台(To B):收费
融资情况
网上信息
在公司成立之初,杨植麟推出了千亿参数级大模型moonshot,以及搭载该模型的智能助手Kimi。除了联网搜索、知识查询、文本生成、翻译、图片识别等基础功能,Kimi进行文本搜索所得出的内容是深入研究、挖掘更全面的信息。
大模型应用效果通常取决于两个核心指标,一是模型参数量,决定了大模型的“计算”能力;二是能够接收多少文本输入,即长文本技术,决定了大模型的“内存”能力。月之暗面在千亿参数模型的基础上,重点突破了长文本技术的挑战。
Kimi是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。作为对比,Anthropic的Claude-100k模型支持约8万字,而OpenAI的GPT-4-32k只支持约2.5万字。
同时,杨植麟强调,Kimi通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,但不依赖于滑动窗口、降采样、小模型等常见的对性能损害较大的“捷径”方案。
月之暗面将长文本技术称之为大模型“登月计划”的第一步。支持更长的上下文意味着大模型拥有更大的“内存”,使大模型的应用更加深入和广泛。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等。
杨植麟认为,简单的捷径无法达到理想的产品化效果。因此,月之暗面的技术路线,就是不走捷径,踏实地解决算法与工程的双重挑战,在算力、存储、带宽等技术层面做了极致的优化。
回顾过去一年的创业,杨植麟曾坦言:“有点像开车在路上,前面有延绵的雪山,但你不知道里面是什么,你在一步一步往前走。”,尽管前路未知,杨植麟依旧透露出了他的野心:我们希望在下一个时代,能成为一家结合OpenAI 技术理想主义和字节所展现的商业化哲学观的公司。
|