> 科技

赛索德SaiVLA-0：全球首个三系统VLA，机器人操控成功率达99%

科技 2026-03-18

具身智能领域的VLA模型正在从“单任务模仿学习”走向通用机器人基础模型。但一个根本问题始终存在：如何让机器人在理解复杂语义的同时，还能实现高速、精准、稳定的物理控制？

传统端到端VLA将视觉语言理解与动作输出全部塞进一个大模型，导致训练成本高、迁移困难、实时性难以保证。今天，赛索德智能给出了一个新答案——SaiVLA-0，一个受神经科学启发的三系统架构VLA，并已开源模型权重与调用。

在具身智能的顶级基准LIBERO上，SaiVLA-0以99.0%的平均成功率刷新榜单，推理延迟仅约40ms，接近该基准的性能上限。

核心亮点：一组数据读懂SaiVLA-0的硬实力

在深入技术细节之前，先看几组关键数据，直接感受它的行业突破性：

成功率拉满：在公开长时序机器人操作基准LIBERO上，平均成功率达99.0%，登顶全球公开榜单（evomind；VLA-Leaderboard），无限接近该基准的性能上限；

速度够快：推理时延低至~40ms，实现高频闭环控制，应对连续多步骤操作稳如磐石；

落地高效：通过分离训练+特征缓存，训练效率提升67%；升级、迁移无需重构系统，大幅降低产线停机与研发成本；

开放模型权重：模型、论文、项目网站全部公开，开发者可直接上手调试，加速具身智能落地进程。

两条技术路线：通用大脑 vs 具身操作系统

当前具身智能领域正在分化出两种代表性方向：

一类以Skild AI为代表，致力于构建跨本体的通用机器人基础模型，希望通过一个统一的“机器人通用大脑”实现不同机器人之间的能力共享与迁移。

另一类则更面向真实产业落地，关注如何在复杂多变的工业环境中实现高效训练、快速适配与稳定交付。赛索德智能的SaiVLA正是这一路径的典型代表。

在真实工业场景中，不同工位、物料、夹具甚至机器人本体之间存在大量差异，单一通用策略模型很难直接覆盖所有任务。更可行的范式是围绕具体任务持续训练与迭代策略，并通过架构解耦实现跨本体迁移与快速部署。

SaiVLA-0的出现，正是瞄准这一痛点：不追求“万能通用”，而是通过架构解耦，让机器人既能保持高性能，又能快速适配不同场景、不同本体，真正贴合工业落地需求。

简单来说，如果Skild AI是在构建机器人的“通用大脑”，那么SaiVLA正在构建面向真实工业世界的具身智能操作系统——一种能够在跨本体机器人平台上持续训练、快速适配并实现规模化商业交付的工业级具身智能范式。

技术拆解：三系统架构，重构VLA的“分工逻辑”

SaiVLA-0的核心突破，在于将传统VLA的“单体端到端”架构，重构为类神经科学的Cerebrum–Pons–Cerebellum（大脑-桥脑-小脑）三系统，实现“语义理解、表征编译、实时执行”的解耦，让每个模块各司其职、协同发力。

1.大脑（Cerebrum）：

相当于机器人的“决策大脑”，采用冻结的大模型语义中枢，负责理解人类的语义意图（比如“拾取这个零件”“装配这个组件”），提供稳定的多模态先验。

不轻易改动，避免因语义模块升级导致整个系统不稳定，为后续的动作执行提供可靠的“指令基础”。

2.桥脑（Pons Adapter）：

大脑输出的是“语义意图”（比如“拾取”），但机器人执行需要“可操作指令”。桥脑的作用，就是把抽象的语义意图，压缩、重编码成机器人能看懂的“可执行上下文tokens”，相当于打通“想法”与“动作”的桥梁。

核心优势：可单独训练——当升级语义模型（大脑）时，不用重构整个系统，只需重新训练桥脑，大幅降低升级成本。

3.小脑（Cerebellum/ParaCAT）

相当于机器人的“手脚控制器”，负责实时执行动作，采用高频运行模式，确保操控的低时延与稳定性。

这里有两个关键设计，直接决定了它的高性能：

并行分类动作头ParaCAT：通过并行解码快速生成多步动作决策，还加入了多种稳定机制，避免动作抖动，比传统方式推理速度大幅提升，这也是它能实现~40ms低时延的核心原因；

几何绑定ROI（腕部视野）：聚焦机器人末端执行器（相当于“手腕”），对细微的姿态变化、接触动作更敏感，哪怕出现轻微偏差，也能快速调整，确保精细操作的稳定性。这一设计在需要精细操作的场景（如插孔、装配）中表现出显著优势。

此外，赛索德智能还提出了一套新的评测指标：计算归一化成功率（compute-normalized success）。

传统VLA评测往往只看成功率，忽略实时性和算力成本。SaiVLA将语义模块（Cerebrum）的一次调用成本与执行模块（Cerebellum）的每步推理成本分别统计，使系统性能能够在成功率、时延与计算开销之间进行统一衡量。

这意味着，“更高成功率”不再以牺牲实时性或算力为代价，而是可以同时追求效率—性能协同优化。

实验结果：LIBERO 99.0%成功率，真实环境验证

SaiVLA-0在公开长时序机器人操作基准LIBERO上取得了99.0%的平均成功率，截止目前在全球公开榜单（evomind/VLA-Leaderboard）中与相关模型相比达到了最高成功率，并接近该基准的性能上限。

与此同时，在真实机器人环境中的多项操作任务上，SaiVLA-0也表现出高度稳定的执行能力，能够可靠地完成连续多步骤操作。这一结果表明，SaiVLA-0不仅在标准化评测中取得突破，也展现出向真实世界任务迁移的强泛化能力，为机器人在真实环境中的长期自主操作奠定了重要基础。

商业优势：为真实产业场景而生

对企业来说，SaiVLA-0的核心价值，不止是“99%的成功率”，更是“可落地、可复用、低成本”。它的三系统解耦架构，能精准适配三大核心场景，直接解决行业落地痛点：

1. 制造与物流：降低自动化改造成本

在多工位、多SKU的柔性操作场景（如拾取、放置、装配、分拣）中，SaiVLA-0通过三系统架构解耦视觉理解与动作控制。当更换夹具、料盘、相机标定或控制接口时，仅需调整局部模块即可完成适配，无需重新训练整个系统，显著减少产线停机时间和系统改造成本。

2. 实验室与高价值操作：提高单任务价值密度

在样品处理、工具使用和多步骤操作等高价值场景中，SaiVLA-0的高频控制闭环与ROI机制能够提升手-物交互的稳定性，使机器人能够执行更精细、更可重复的操作，从而提升自动化替代人工的经济价值。

3. 具身智能平台与研发市场：降低系统研发成本

在需要频繁更换机器人本体或传感器配置的研发环境中（如不同机械臂、移动底盘、双臂系统或不同相机布局），SaiVLA的三系统解耦架构能够实现跨平台快速迁移，仅需调整局部模块即可完成适配，显著降低研发、维护与系统集成成本。

开源与获取

赛索德智能已将SaiVLA-0的代码、模型权重、技术论文开源：

GitHub: https://github.com/saivla/saivla-0

项目网站: https://www.synthoid.cn/saivla/

论文: https://arxiv.org/abs/2603.08124

无论你是机器人领域的研究者、开发者，还是产业应用方，都可以基于SaiVLA-0快速构建自己的具身智能系统，并针对具体场景进行高效微调。

赛索德SaiVLA-0：全球首个三系统VLA，机器人操控成功率达99%

开源与获取

可扩展的专用量子计算机重磅纳入十五五规划！玻色量子领跑专用量子计算新征程

热门文章

2025年厦门用户大会丨ManageEngine卓豪：AI赋能运维，智启未来新程

bit-Agent十问十答：九科信息领先行业的智能体是怎样炼成的？

光影重构真实美学，大朋AI眼镜将带来“第一视角”新体验

纽曼户外电源出海中亚热卖极海传媒海外推广助推“用电自由梦”

云顶新耀"摘B"成功盈利能力与创新价值获双重验证

航空安全新规下，OUKITEL 超大电池手机：无需充电宝的“自给”续航方案

Persona AI获2700万美元超额预种子轮融资，布局人形机器人未来

创意先锋 Nicola Formichetti 出任 M·A·C Cosmetics 全球创意总监

安德光电20周年盛典圆满落幕，以科技之光致敬中国智造

TGO 鲲鹏会十年同侪！共话 AI 时代新机遇丨GTLC 北京站圆满落幕