于2021年创立。姚星和团队经历过PC互联网、移动互联网的完整周期,也在强化学习时代带领团队打造围棋AI“绝艺”和游戏AI“绝悟”等明星产品。
元象创立的时点,正值“移动互联网进入瓶颈期,开始向全真互联网迈进”。高榕创投联合领投了元象的天使轮,并在后续轮中继续参与。
在元象团队看来,所谓“全真互联网”,可能是一个更加真实、更加智能的数字世界,而通向这个世界有两把黄金钥匙——AI+3D。
为此,在过去4年时间,元象成为国内唯一同时布局AI和3D技术研发的企业。一方面,公司开发了包括端云协同3D引擎在内的独创技术方案,在3D制作和渲染领域形成独特优势;在大模型的浪潮下,元象自主研发大参数规模开源大模型,在创新混合专家架构(MoE)等方面持续积累。
瞭望远方的同时,元象也在用AI和3D技术解锁当下的商业化可能性。通过在3D互动内容制作、VR大空间品牌和AI应用等方面获取用户、实现增长,逐步搭建起3D内容生产和消费一站式平台。
近期,在高榕创投X BOSS直聘组织的AI应用企业联合直播招聘活动中,元象XVERSE联合创始人、CTO肖志立,在线分享了元象如何以“AI+3D”之力探索面向未来的数字新世界。肖志立是云存储、云计算、富媒体存储与传输技术专家,曾任腾讯基础架构部总经理。
从移动互联网向全真互联网迈进,需要哪些核心技术基座来支撑?可以从信息和智能两大维度去思考。
信息维度,回顾互联网发展趋势,主流的信息媒介从文本进化到图片、视频,持续在升维。视频基本上意味着移动互联网的体验极限,如果想再往真实世界走,可行的路径就是增加空间维度,即向3D这一更高信息维度去发展。
智能维度,未来的数字世界想要足够真实,仅仅有视觉感受是不够的,还需要实现全域的智能化。从强化学习到大语言模型、多模态、Agent,智能化浪潮奔涌向前,驱动未来的数字世界具备“自生长”和“自适应”能力。
因此,元象在成立之初,就确定了3D(感知智能)和AI(认知智能)两项技术并驾齐驱的技术路线。
在3D技术维度,元象自研3D引擎,树立内容制作标杆,构建“真实的”虚拟世界;AI维度,元象全链条自研多尺寸大模型,赋能内容生产和消费娱乐,打造“智能的”数字生活。双向融合渐进发展,最终赋能我们的愿景——为每个人构建一个真实且智能的数字世界。
从信息演进规律看,信息升维的下一步必然是3D交互式内容。我们知道,信息维度越高的内容,用户的消费和接收门槛越低,但生产成本更高。比如浏览一条短视频通常比阅读一篇文章更轻松,但是内容生产成本可能是几何级增加的。
截至目前,元象在3D制作和渲染领域已经形成独特优势。举例来说,元象拥有引擎的改造能力,在UE5(虚幻引擎5)的基础上做了非常多的改进。其中自主研发了行业引领性的“端云协同”3D互动技术方案,实现在移动端也能实时渲染高清素材并确保交互的实时性,即便在低功耗的设备上依然可以实现高清效果。该技术也支持元象为文旅、商业领域客户打造了众多3D互动内容标杆项目。
此外,元象开发了多款创新AIGC工具,以降低3D内容生产门槛。2024年8月,元象推出国内首个3D AIGC动作生产模型MotionGen,支持用户输入简单的文本指令,即可快速生成逼真、流畅且复杂的3D动作。模型支持从基础行走到复杂肢体运动的各类动作需求,比如为一个角色动画快速生成舞蹈动作。
在3D世界中,场景也是关键要素。如何能够将一个真实世界的场景在虚拟世界中快速重建,也涉及非常多的技术挑战。元象开发了XScene-UEPlugin,这是一款基于3DGS革命性技术的3D场景生成工具。3DGS即3D高斯抛雪球技术,可以用2D图片生成极高质量的3D场景,并且速度极快,能够一次解决渲染质量与效率问题,被行业誉为“the future of 3D”。在3DGS技术论文发布3个月后元象就率先引入,并发布免费插件工具。
通过这一插件,开发者可以就某个3D场景,进行手机拍摄、电脑生成3DGS、UE5中编辑、交互开发等一站式创作。比如线下拍摄一张元象办公室的真实场景照片,可以快速实现三维重建,在虚拟世界里自动转换为标准的材质、光照等信息,并支持二次加工,或者让某个虚拟角色在这个场景里互动表演,实现“虚实结合”的效果。
基于上述技术积累,元象在3D互动内容制作方面除了有更好的效果,也大幅降低了内容制作成本。
现阶段,在头显消费终端还未普及的情况下,元象首先通过线下渠道让用户接触新的内容消费形态,实现技术的商业化落地。在线下场景,用户消费新的互动内容体验的付费门槛比线上要低很多,例如去年VR沉浸展《消失的法老》就在国内掀起了一波热潮。未来随着新的终端普及,数字消费市场也将重塑,元象在过程中积累的优势可以逐步释放。
2024年7月起,元象孵化的VR大空间品牌“VISION WALK幻旅之门”逐步落地,以下一代沉浸式体验为核心迅速领跑行业,一年时间在国内落地超150家VR内容体验店,海外也在持续拓展市场。元象积累的“产业链全栈自研、成本极致可控、场景无限适配”能力,成为增长的底层驱动力。
过去2年,元象也紧随大模型技术浪潮。自主研发的元象大模型,以多模态、长文本、创新混合专家架构等优势将国产开源模型提升至国际一流水平。
2024年,元象大模型取得多个里程碑。2024年1月,发布当时全球最长上下文开源大模型XVERSE-Long;4月,推出视觉多模态大模型XVERSE-V,让模型具备视觉理解能力;9月,发布了当时国内最大的2550亿参数的MoE开源大模型。
元象大模型实现“全链条自研”,过程中开发了多项关键技术创新来提升模型效率和计算效率。例如采用4D拓扑架构、计算重叠等机制提高计算效率,设计专家权重、学习率调度等策略提升训练效果。
展望今年大模型的发展方向,毫无疑问是两点。首先是大语言模型能否更加智能,除了输出文本内容,未来基于Agent完成更加复杂的逻辑任务;其次,多模态模型持续发展,包括图片、语音和视频模型,逐步达到能够在消费场景中使用的效果。
元象也在基于大模型能力打造AI应用。2024年,元象推出重点面向海外市场的AI角色扮演互动网文应用Saylo。产品的DAU、用户使用时长、用户留存和付费转化,均实现正向发展。应用曾获得中国港澳台地区娱乐榜第一名;面向美国、日本、英国、马来西亚、菲律宾等市场,均在本地免费榜、畅销榜中获得了出色成绩。
截至今年7月,Saylo累计用户数成功突破300万。值得一提的是,Saylo的用户粘性极为出色,平均留存率高达65%以上,活跃用户平均使用时长达到110分钟/天,远超行业平均水平。
Saylo让用户获得高真实度、高互动感体验的背后,得益于元象在大模型技术上的积累。例如元象自研了泛娱乐领域MoE底座大模型,通过自研Dense模型嫁接MoE框架Post-train技术,优化模型的推理能力、压缩模型的参数规模、降低模型的训练成本。Saylo产品也已全面融入了元象的AI生图、AI语音通话和AI视频能力。
在后训练阶段,元象擅长把强化学习技术与用户反馈做结合,让AI的输出结果更加符合用户的心意,“有趣又有聊”。
除了Saylo,元象亦在启动和探索新的应用形态,包括AI+娱乐、AI+社交、AI+游戏等方向。
回顾元象的创业旅程,我们始终站在3D和AI技术的最前沿,始终坚持对技术的坚定投入,目前元象团队规模200多人,产研占比超75%。
展望未来,AI+3D的双向赋能将释放更多潜力。目前AI技术更多应用在3D内容的生成端,我们也期待看到在消费端、AI和3D技术有更多融合。举个例子,用户和3D虚拟角色实时视频聊天场景,大模型能够结合角色的文字回复实时生成3D角色的肢体动作、脸部表情、嘴型等等。
一旦打通AI+3D在消费端的应用路径,想象空间会非常大。一个更加真实和智能的数字世界,也将更快在我们眼前徐徐展开。
