背景与架构

README 只保留项目定位、模式边界和最小架构摘要；需要完整背景说明时，直接看这里。

设计原则

传统自动化脚本与 RPA 在多工具协作、动态上下文与长期任务上存在断层，执行链路难以复用与回放。

执行优先：以工具调用为核心链路，确保任务可落地、可回放
约束优先：chat / fast 都是流式对话驱动的 tool_call -> tool_result 闭环；plan 先产出计划，再按步骤顺序执行
本地优先：关键决策与执行留在端侧，降低时延与不确定性
工程优先：授权、配置、可观测与回收机制齐备

与传统自动化对比： - 传统层面：脚本或流程固定、可复用性弱，跨系统编排成本高，遇到变化容易失效 - 智能代理：以工具协议与编排为核心，支持动态路由与上下文管理，并保留可回放、可追踪的执行证据链

架构总览

运行骨架采用 控制面 / 执行面双进程分层，并通过 MCP 工具协议把能力按域组织为可插拔积木，形成稳定的 tool_call -> tool_result 执行闭环。

分层与职责

控制面（Mind）：指令解析、会话编排、模型调度、任务路由、模式分流与结果聚合
执行面（Helix）：工具注册与发现、调用生命周期管理、域隔离、运行态监测与证据链落盘

运行架构：

┌────────────┐
│  Mind      │
│  (CLI)     │
└─────┬──────┘
      │
      ▼
┌────────────┐
│  Helix     │
│  (MCP)     │
└─────┬──────┘
      │
      ▼
Tools: device / bench / common / media

三条执行通道

CHAT：流式对话 + 动态工具触发，适合探索、问答、临场协作
FAST：仍是流式对话闭环，但会裁掉部分设备/UI和重型工具，适合接口、文本、媒体短链路
PLAN：先生成结构化步骤链，再顺序执行，适合需要可读步骤和更稳路径的任务

工具域与能力边界

device：应用与系统控制、UI 操作链；代码组织在 automator 下，对模型暴露的域名是 device
bench：性能、稳定性与接口执行面；接口能力实际落在 bench.nexus
common：环境与基础能力
media：截图、录屏、音视频处理和帧级流水线

补充： - 接口能力不是独立 api 域，而是归入 bench.nexus - 文档里的接口能力说明，对应的都是 nexus_* 协议工具执行面

执行闭环与证据链

执行闭环：

模型生成意图
  ↓
Tool Call
  ↓
Mind 调度
  ↓
Helix 落地执行
  ↓
Enhancer 封装结果
  ↓
Tool Result 回流模型

证据链： - cid / sid 贯穿一次会话或任务 - 日志、媒体、指标、计划统一落盘 - plan 保留结构化步骤与执行证据，便于复盘与审计

协议与传输

协议：MCP 工具协议
传输：streamable-http
鉴权：Bearer Token

云端架构

Mind 的路线是 端侧确定性执行 + 云端智能增强。云端只负责增强认知、策略和治理，不接管确定性执行。

云端职责边界

云端负责： - 检索 / RAG、知识与模板管理、多模型路由、策略下发 - 租户隔离、配额限流、鉴权审计、灰度与版本管理 - Metrics / Tracing / Logs、告警、回归追踪

云端不负责： - 不直接操控端侧设备与执行工具 - 不托管关键执行路径，执行闭环仍由 Helix 承担

参考组件栈

分类	组件
网关	Cloudflare
缓存	Redis
存储	Supabase Postgres + R2
检索	Embedding / Rerank / 向量索引
推理	GPU 容器化推理集群
观测	Metrics / Tracing / Logs
保障	灰度发布 / 金丝雀路由

云端分层

执行层（Helix）：MCP 工具宿主与执行闭环，负责运行态监测、健康检查、证据链落盘
控制层（AppServerX）：增强与治理中枢，负责模型与工具元数据、策略、检索、网关、安全、缓存、观测和推理编排

示例接口： - Helix：/helix/mcp / /healthz / /ready / /version / /idle

生命周期约定： - Helix 可由 Mind 拉起或独立部署 - 空闲超阈值后自动回收 - 请求和工具调用会刷新 idle 计时

云端增强闭环

请求入口
  ↓
统一鉴权与网关
  ↓
路由与排队
  ↓
GPU 推理集群
  ↓
结果聚合与策略回填
  ↓
指标采集 / 报告生成 / 回归追踪
  ↓
告警与异常归因

设计目标

可控：增强可演进，但不破坏端侧确定性执行
可观测：端云同链路追踪，与 cid / sid 对齐
可治理：租户隔离、配额、灰度、回滚齐备
可扩展：模型与检索组件可插拔，推理集群可弹性扩缩容

推理集群

Mind 的云端增强能力由 推理集群 承载，目标是同时覆盖低延迟在线推理和批处理回归。

设计定位

在线推理：高并发、低抖动、稳定 P99，面向业务请求与 Agent 增强链路
离线批处理：大规模回归、基线对比、数据回灌、模型验证与持续评估

模型矩阵

模型	角色	典型用途
Cross Encoder	重排	工具选择精排、RAG 片段重排、多候选计划收敛
BGE	召回 / 向量表征	语义召回、意图与模板匹配、工具与知识索引
灰度 CNN	结构视觉判别	加载、卡顿、遮罩确认、版式一致性、OCR 前置质量判别
彩色 CNN	色彩视觉判别	提示色识别、主题切换一致性、颜色驱动状态判别
YOLO	目标检测	按钮、弹窗、图标、提示条等 UI 区域定位

组合关系： - BGE 负责召回，Cross Encoder 负责收敛 - 视觉模型负责关键帧状态确认与目标定位，并为 device 域工具提供可视锚点

统一推理流水线

BGE 语义召回
Cross Encoder 精排
视觉模型做状态确认与目标定位
策略层选择视觉栈与阈值，并定义回退路径
返回增强结果，为端侧执行链提供更稳的决策输入

原则是：云端增强负责更聪明，端侧执行负责更确定。

可观测性

与 Mind 的 cid / sid 对齐，实现端云同链路追踪
核心指标覆盖延迟、质量、稳定性

工程化能力

灰度发布
快速回滚
压测基准
批处理回归对比

工程摘要

GPU 负责承载多模型并行与混合负载
动态路由按任务类型、场景模板和预算门槛选择模型组合
质量或延迟异常时支持分段熔断、自愈回退，并保留路由证据
常见增强链可模板化复用，并通过回归和成本分级持续优化