ClawSide 技术路线图

ClawSide 技术路线图

一期：核心工具 ✅ (当前阶段)

目标：人类视角打通 Chrome 与 Local AI，提供高效率的核心工具。

已有功能

Chrome 浏览器插件端（与 Local AI Hub 通信）
Local AI Hub 服务端（管理浏览器端连接、Session 路由）
核心工具集：
- clawsext_fetch — 获取当前页面内容（DOM/Markdown）
- clawsext_screenshot — 页面视觉截图
- clawsext_navigate — 页面导航（URL 跳转、后退等）
- clawsext_click / clawsext_type — 页面交互操作
- clawsext_search — 浏览器内搜索

设计原则

无侵入：浏览器插件轻量化，不影响日常浏览体验
低延迟：操作类工具（如 click/type）响应时间 < 500ms
安全优先：所有工具调用需用户确认或明确的权限配置

二期：生态扩展 🔧 (规划中)

目标：更灵活的网站工具插件机制，更高的 Local AI 集成度，更丝滑的交互体验。

2.1 更灵活的网站工具插件机制

功能	描述
按站点的工具集配置	不同网站启用不同的工具子集（如 GitHub 专用工具 vs 通用工具）
工具插件 SDK	允许第三方开发者编写站点工具包（Tool Plugin），声明式定义工具 schema
工具链（Chain）编排	支持将多个工具组合成一条自动化链路，供 AI 顺序执行
工具市场（Tool Market）	插件内直接浏览/安装由社区贡献的站点工具包
动态工具发现	页面加载时自动检测可用工具，AI 按需调用而非全量暴露

2.2 更高的 Local AI 集成度

功能	描述
Streaming 响应	支持 Local AI 的流式输出，前端实时展示推理过程
多模型路由	按任务类型自动选择最合适的本地模型（快速模型 vs 大模型）
AI 上下文缓存	页面内容+工具结果自动压缩摘要，注入 Context Window
Tool Use / Function Calling	深度集成 Local AI 的工具调用协议，支持复杂多轮工具调用
多模态支持	页面截图直接传入视觉模型（Qwen2-VL、LLaVA 等）

2.3 更丝滑的交互体验

功能	描述
Floating Action Panel	浏览器侧边浮动面板，随时唤起 AI 对话，不遮挡页面内容
Quick Commands	支持快捷命令（如 `/screenshot`、`/summarize`）
跨 Tab 会话	在多个标签页间共享同一个 AI 会话上下文
通知推送	AI 任务完成后通过系统通知告知用户（如”页面已总结”）
深色模式	插件 UI 自动跟随系统/浏览器深色模式
触控/键盘快捷键	支持键盘快捷键唤起 AI，触控设备手势操作

三期：平台化与智能化 🔮 (想法阶段)

以下为初步想法，欢迎补充。

3.1 多浏览器与跨平台

支持 Firefox、Edge 等 Chromium 系浏览器
移动端适配（iOS Safari、Android WebView）
Local AI Hub 支持局域网内多设备连接

3.2 开发者生态

完整的 Tool Plugin 开发文档与调试工具
VS Code / Cursor 插件集成（IDE 内直接调试工具）
Plugin 版本的版本管理与热更新

3.3 智能化增强

Agent Memory：AI 记住用户偏好（如”这个页面我总是要翻译”）
意图预测：根据页面内容预测用户下一步操作
自动化工作流：录制+回放用户操作，AI 学习后自动执行

3.4 安全与隐私

工具调用权限的细粒度控制（按站点、按工具类型）
操作日志与审计
敏感页面自动禁用 AI（银行、邮箱等）

3.5 协作功能

团队配置共享（Tool Plugin 配置云同步）
多人共享同一个 AI 会话
任务指派（AI 操作结果分享给团队成员）

贡献指南

欢迎提交 Issue 和 Pull Request！特别是：

站点工具插件（按二期 2.1 的 SDK 规范开发）
新功能建议
Bug 报告与修复

最后更新：2025-04-12