赛索德SaiVLA-0:全球首个三系统VLA,机器人操控成功率达99%

具身智能领域的VLA模型正在从“单任务模仿学习”走向通用机器人基础模型。但一个根本问题始终存在:如何让机器人在理解复杂语义的同时,还能实现高速、精准、稳定的物理控制?
传统端到端VLA将视觉语言理解与动作输出全部塞进一个大模型,导致训练成本高、迁移困难、实时性难以保证。今天,赛索德智能给出了一个新答案——SaiVLA-0,一个受神经科学启发的三系统架构VLA,并已开源模型权重与调用。

在具身智能的顶级基准LIBERO上,SaiVLA-0以99.0%的平均成功率刷新榜单,推理延迟仅约40ms,接近该基准的性能上限。
核心亮点:一组数据读懂SaiVLA-0的硬实力
在深入技术细节之前,先看几组关键数据,直接感受它的行业突破性:
成功率拉满:在公开长时序机器人操作基准LIBERO上,平均成功率达99.0%,登顶全球公开榜单(evomind;VLA-Leaderboard),无限接近该基准的性能上限;
速度够快:推理时延低至~40ms,实现高频闭环控制,应对连续多步骤操作稳如磐石;
落地高效:通过分离训练+特征缓存,训练效率提升67%;升级、迁移无需重构系统,大幅降低产线停机与研发成本;
开放模型权重:模型、论文、项目网站全部公开,开发者可直接上手调试,加速具身智能落地进程。

两条技术路线:通用大脑 vs 具身操作系统
当前具身智能领域正在分化出两种代表性方向:
一类以Skild AI为代表,致力于构建跨本体的通用机器人基础模型,希望通过一个统一的“机器人通用大脑”实现不同机器人之间的能力共享与迁移。

另一类则更面向真实产业落地,关注如何在复杂多变的工业环境中实现高效训练、快速适配与稳定交付。赛索德智能的SaiVLA正是这一路径的典型代表。
在真实工业场景中,不同工位、物料、夹具甚至机器人本体之间存在大量差异,单一通用策略模型很难直接覆盖所有任务。更可行的范式是围绕具体任务持续训练与迭代策略,并通过架构解耦实现跨本体迁移与快速部署。
SaiVLA-0的出现,正是瞄准这一痛点:不追求“万能通用”,而是通过架构解耦,让机器人既能保持高性能,又能快速适配不同场景、不同本体,真正贴合工业落地需求。

简单来说,如果Skild AI是在构建机器人的“通用大脑”,那么SaiVLA正在构建面向真实工业世界的具身智能操作系统——一种能够在跨本体机器人平台上持续训练、快速适配并实现规模化商业交付的工业级具身智能范式。
技术拆解:三系统架构,重构VLA的“分工逻辑”
SaiVLA-0的核心突破,在于将传统VLA的“单体端到端”架构,重构为类神经科学的Cerebrum–Pons–Cerebellum(大脑-桥脑-小脑)三系统,实现“语义理解、表征编译、实时执行”的解耦,让每个模块各司其职、协同发力。

1.大脑(Cerebrum):
相当于机器人的“决策大脑”,采用冻结的大模型语义中枢,负责理解人类的语义意图(比如“拾取这个零件”“装配这个组件”),提供稳定的多模态先验。
不轻易改动,避免因语义模块升级导致整个系统不稳定,为后续的动作执行提供可靠的“指令基础”。
2.桥脑(Pons Adapter):
大脑输出的是“语义意图”(比如“拾取”),但机器人执行需要“可操作指令”。桥脑的作用,就是把抽象的语义意图,压缩、重编码成机器人能看懂的“可执行上下文tokens”,相当于打通“想法”与“动作”的桥梁。
核心优势:可单独训练——当升级语义模型(大脑)时,不用重构整个系统,只需重新训练桥脑,大幅降低升级成本。
3.小脑(Cerebellum/ParaCAT)
相当于机器人的“手脚控制器”,负责实时执行动作,采用高频运行模式,确保操控的低时延与稳定性。
这里有两个关键设计,直接决定了它的高性能:
并行分类动作头ParaCAT:通过并行解码快速生成多步动作决策,还加入了多种稳定机制,避免动作抖动,比传统方式推理速度大幅提升,这也是它能实现~40ms低时延的核心原因;
几何绑定ROI(腕部视野):聚焦机器人末端执行器(相当于“手腕”),对细微的姿态变化、接触动作更敏感,哪怕出现轻微偏差,也能快速调整,确保精细操作的稳定性。这一设计在需要精细操作的场景(如插孔、装配)中表现出显著优势。
此外,赛索德智能还提出了一套新的评测指标:计算归一化成功率(compute-normalized success)。

传统VLA评测往往只看成功率,忽略实时性和算力成本。SaiVLA将语义模块(Cerebrum)的一次调用成本与执行模块(Cerebellum)的每步推理成本分别统计,使系统性能能够在成功率、时延与计算开销之间进行统一衡量。
这意味着,“更高成功率”不再以牺牲实时性或算力为代价,而是可以同时追求效率—性能协同优化。
实验结果:LIBERO 99.0%成功率,真实环境验证
SaiVLA-0在公开长时序机器人操作基准LIBERO上取得了99.0%的平均成功率,截止目前在全球公开榜单(evomind/VLA-Leaderboard)中与相关模型相比达到了最高成功率,并接近该基准的性能上限。
与此同时,在真实机器人环境中的多项操作任务上,SaiVLA-0也表现出高度稳定的执行能力,能够可靠地完成连续多步骤操作。这一结果表明,SaiVLA-0不仅在标准化评测中取得突破,也展现出向真实世界任务迁移的强泛化能力,为机器人在真实环境中的长期自主操作奠定了重要基础。
商业优势:为真实产业场景而生
对企业来说,SaiVLA-0的核心价值,不止是“99%的成功率”,更是“可落地、可复用、低成本”。它的三系统解耦架构,能精准适配三大核心场景,直接解决行业落地痛点:
1. 制造与物流:降低自动化改造成本
在多工位、多SKU的柔性操作场景(如拾取、放置、装配、分拣)中,SaiVLA-0通过三系统架构解耦视觉理解与动作控制。当更换夹具、料盘、相机标定或控制接口时,仅需调整局部模块即可完成适配,无需重新训练整个系统,显著减少产线停机时间和系统改造成本。
2. 实验室与高价值操作:提高单任务价值密度
在样品处理、工具使用和多步骤操作等高价值场景中,SaiVLA-0的高频控制闭环与ROI机制能够提升手-物交互的稳定性,使机器人能够执行更精细、更可重复的操作,从而提升自动化替代人工的经济价值。
3. 具身智能平台与研发市场:降低系统研发成本
在需要频繁更换机器人本体或传感器配置的研发环境中(如不同机械臂、移动底盘、双臂系统或不同相机布局),SaiVLA的三系统解耦架构能够实现跨平台快速迁移,仅需调整局部模块即可完成适配,显著降低研发、维护与系统集成成本。
开源与获取
赛索德智能已将SaiVLA-0的代码、模型权重、技术论文开源:
GitHub: https://github.com/saivla/saivla-0
项目网站: https://www.synthoid.cn/saivla/
论文: https://arxiv.org/abs/2603.08124
无论你是机器人领域的研究者、开发者,还是产业应用方,都可以基于SaiVLA-0快速构建自己的具身智能系统,并针对具体场景进行高效微调。