视鉴中枢（Everpast-AI）· 路演演讲稿

基于演讲大纲的逐字逐段讲稿标注了[语速提示]、[PPT翻页点]、[演示时刻] 粗体为强调内容/关键金句

第一幕｜一个扎心的问题

[时长：约 2 分钟] [PPT：一张普通家用监控截图 + 无数进度条画面]

大家好。先问一个问题——你家装监控了吗？装了？好，那我再问一个扎心的问题：你有多久没翻过监控录像了？

买摄像头的时候想象的是安全感，结果打开回放一看：24 小时的画面，99% 是静止的走廊、趴着的猫、没人的客厅。你需要在进度条上盲猜——中午 12 点推一下，下午 3 点推一下——就像大海捞针。

[PPT：灵魂拷问三连]

我们真正想知道的其实是这些：

「下午有人来过我家，他在客厅做了什么？」——你得回看 3 小时，快进 8 倍速，弄不好还得重看一遍
「我桌上那把钥匙什么时候不见了？」——没人能回答你，除非你碰巧记得大概时间点
「我今天在家到底把时间花在哪了？」——没人给你总结，录像也不会告诉你

[语速放慢，眼神扫观众一圈]

说到底，传统监控只做了一件事——「录」。它从来不负责 「懂」。

这就是我们看到的空白：监控画面铺天盖地，但没有一个系统在真正理解画面里发生了什么。 录了，等于没录；看了，等于没看见。

我们的项目——「视鉴中枢 —— Everpast-AI」，就是来填这个空白的。

第二幕｜我们造了什么

[时长：约 3 分钟] [PPT：系统概念图 / 「从看录像到读时间线」动画过渡]

一句话定义

「视鉴中枢」是一个基于家用监控画面、用 AI 自动理解一切的家庭智能中枢系统。

它不是又一个监控 app。它做的事情可以概括成一个范式的根本转变：

[PPT：左右对比——左边是堆叠的视频文件，右边是一条自然语言时间线]

从「看录像」到「读时间线」。

传统的核心资产是 视频文件，又大又难搜。我们的核心资产是 自然语言时间线——轻量级 AI 模型 7x24 小时把每一帧画面翻译成一句人话，按时间排好，像日记一样。

用户怎么用

[PPT：对话气泡动画——用户提问→系统回答→调出视频片段]

假设你在外面，想知道下午发生了什么。你不用打开监控 app 慢慢拖进度条。你直接打字或者语音问：

「下午谁来过？在客厅做了什么？」
「餐桌上的快递是什么时候拿走的？」

系统会先读时间线，用 LLM 推理出答案，然后用文字告诉你。如果你要看证据，它直接给你调出对应那几秒的视频片段——不是前后 5 分钟那种模糊定位，是精确到事件的几秒钟。

[微笑，停顿]

就像一个管家，二十四小时帮你看着家，还帮你记了日记——你只需要开口问。

第三幕｜技术的含金量——四两拨千斤

[时长：约 5 分钟，这是全场的核心段落，语速要稳，眼神要坚定] [PPT：四个亮点依次展示，每个一页]

[过渡句]

有人可能会想：「听起来不错，但你们是一群学生，凭什么能做出这种东西？」

好问题。我来给你们看看我们的底牌。

亮点 1：轻重结合的双层 AI 架构

[PPT：天平图——左边小砝码「LVM 全天跑」，右边大砝码「LLM 按需召唤」]

做监控 AI 的第一道选择题是：模型放哪？

如果全程用 GPT-4 那种大模型来分析每一帧——对不起，你的电费比摄像头贵，延迟也受不了。如果全程用手机芯片上的小模型——精度又跟不上。

我们的解法很巧妙：两个模型，分工协作。

底层——轻量级 LVM（视觉语言模型），Qwen3-VL-4B 或 8B。

这是一个只有 40 亿到 80 亿参数的多模态模型
它可以在家庭 NAS 或 NUC 级别设备上全天候运行
工作很简单：每隔几秒看一眼画面，用一句话描述出来
- 「08:03 — 厨房灯光亮起，一个人走进画面」
- 「14:27 — 一只猫跳上沙发，在靠枕上蜷缩」
- 「18:45 — 餐桌前有两人用餐」
功耗低，不吵不热，像家里多了一个安静的观察员

上层——重量级 LLM，DeepSeek R1 或 V3。

当用户提出一个复杂问题，才召它出场
它不负责看画面，而是：读时间线做推理 + 精准定位视频片段
按量付费，不问不花钱

[手势：一轻一重]

轻的不累，重的不白干。一守一攻。这就是我们说的「轻重结合」。

亮点 2：不是插件，是平台

[PPT：树状图——主干是「核心中枢」，枝干是各个插件]

很多同类项目做了一个功能就收工了。我们选择了一条更难但更有想象空间的路。

我们从一开始就把系统设计成一个框架，而不是一个应用。

核心中枢只做三件事：

生成时间线——LVM 7x24h 把画面转成文字
路由消息——MQTT 总线让所有模块互通
管好插件——安装、卸载、健康检查、权限控制

[语速稍快，有节奏感]

那老人跌倒检测呢？不是核心——一个插件。时间分析报告呢？不是核心——一个插件。智能家居联动呢？不是核心——一个插件。即插即用，去之不伤本体。

就像 iOS 不自己做每一个 app，只提供底层和 API。我们的核心就是那个 iOS，插件就是那些 app。

亮点 3：通讯系统的工业级设计

[PPT：MQTT 架构图——插件 A → Genapsed Broker → 插件 B，带 QoS 标签]

当一个系统里有 5 个、10 个、甚至 20 个插件在同时跑，通讯就成了瓶颈。如果所有视频裸流都往中央转发——系统立刻挂掉。

我们借鉴了网络设计的核心思想：控制面与数据面分离。

[手势：左右分开]

控制面走 MQTT—— 指令、事件、心跳、状态。MQTT 的报头最小只有 2 个字节，支持发布/订阅模式，天然解耦。消息格式是标准 JSON，带着 trace_id 贯穿全程，从源头到终点全链路可追踪。

数据面走文件系统或 HTTP—— 视频片段、大图片、模型文件。不塞进消息总线，只传一个路径引用过去。

[加重语气]

我们还做了 QoS 分级：关键指令 QoS 2 ——确保送达且仅一次；事件通知 QoS 1——允许重复但不允许丢失；日志和状态 QoS 0——丢了就算了，最新的才重要。

这套设计的直接结果就是：Genapsed 永远只处理 KB 级别的 JSON 消息，永远不会被 GB 级别的视频拖垮。

亮点 4：插件安全体系

[PPT：两个容器——左边宿主机（认证），右边 Docker（未认证）]

当一个系统开放给第三方插件时，安全问题就来了。你的插件要是写个死循环或恶意代码，我不能让整个系统跟着陪葬。

所以我们做了两层安全：

认证插件——经过审核的、信任的插件，可以直接在宿主机上跑，性能最优
未认证插件——自动丢进 Docker 容器，文件系统隔离、网络权限受限

再加上 Topic 权限隔离：每个插件只能往自己的 topic 上发消息。Genapsed 控制一切路由。一个插件疯掉了，不会影响别人。

第四幕｜技术栈一览

[时长：约 1.5 分钟] [PPT：表格一页展示，快速滑过]

[语速略快，自信连贯]

快速过一下我们选了什么、为什么选它，你们可以感受一下这个技术底子的厚度：

[每说一行，PPT 对应高亮一行]

层级	选型	为什么
视觉模型	Qwen3-VL-4B/8B	来自通义千问，HuggingFace 生态成熟，4B 版本家庭设备跑得动，8B 版本精度更高
推理模型	DeepSeek R1/V3 API	目前中文性价比最高的 API 之一，推理能力强，成本可控
视频底层	Frigate NVR	开源 NVR 绝对的标杆，Google 级的 API 设计，社区活跃
消息总线	MQTT (Mosquitto / EMQX)	IoT 领域的 TCP/IP，轻量、稳定、双向
插件沙箱	Docker	不用解释，行业标准
代码管理	Git + Git LFS	大文件版本控制，模型文件也能追历史
协作工具	Obsidian + 飞书 + GitLab	文档先行，知识沉淀，一切可追溯

[微笑，收]

可能你们注意到了——没有一个选型是蹭热度的，每一个都是经过团队讨论论证后敲定的。 我们不只是想堆技术，我们想建一个真正能跑的东西。

第五幕｜我们是谁，到了哪

[时长：约 1.5 分钟] [PPT：团队四人的名字 + 一句话分工，进度时间线]

好的技术离不开好的团队。我们的核心团队有四个人：

[PPT 逐个亮出，每人配一句话职责]

@hexianglong——技术负责人，负责架构设计和时间线存储系统
@Archeroy——Genapsed 核心守护进程 + 插件系统的设计
@CainiaovH——Frigate NVR 集成 + 开发环境搭建
@Tetoisnothuman——MiniLVM 视觉模型 + LLM 查询引擎

[语速正常，带一点自豪感]

大家应该注意到了，这个分工完全对应前面讲的四个技术亮点：一人扛一块，互不重叠，互不拖累。

我们还有 IG 计算机方向的老师带着做指导，也在考虑未来参加相关赛事。

来看看进度：

[PPT：时间线——标注已完成 / 进行中 / 路线图]

✅ 已完成：全套架构文档、MQTT 协议规范、Genapsed 设计、团队协作流程
🔄 进行中：原型编码阶段——我们叫它 Vibe Coding，借助 AI 快速出原型
📅 接下来的节点：
- 5月18日 — 核心组件原型可用
- 5月28日 — 时间线生成 + 自然语言查询跑通
- 6月15日 — 系统测试通过

这个项目从 3 月正式立项到现在两个月，我们从一张白纸走到了文档完备、原型编码中的阶段。节奏不算快，但每一步都很扎实。

第六幕｜未来想象

[时长：约 1 分钟] [PPT：背景是插件生态图——老人看护、智能家居、每日回顾…]

[语速放慢，带一点前瞻性]

可能有人会问：做一个时间线生成系统，是不是就结束了？

不是。这只是开始。

因为我们的架构是开放的，真正有想象力的是这个底座上能长出来的东西：

老人看护插件——检测到老人长时间没出现在客厅，或者半夜异常走动，自动推送告警
时间分析插件——你今天几点出门几点回家、在沙发上坐了多久——比你自己还清楚
智能家居联动——检测到厨房没人但燃气灶还亮着……自动关火
每日回顾插件——一天发生了什么，AI 自动生成一页「家庭日报」

[站定，目光扫全场，语气笃定]

我们的愿景很清晰：不让监控只被看见，而让它被理解。

「录」这件事已经做了四十年了。是时候往前一步了。

谢谢大家。

附｜演示预案

方案 A：Genapsed 启动 + MQTT 消息流转演示（推荐，3 分钟）

前提：已有 Genapsed 原型能在终端启动

操作流程：

终端启动 Genapsed，展示日志输出
打开第二个终端，展示 MQTT 订阅：everpast/+/+/+
模拟一条 Frigate 事件推送，展示消息在 MQTT 总线上流转
展示 Genapsed 路由到目标组件

解说词示例：

你们看，Frigate 检测到运动事件，一条 JSON 消息发到 everpast/frigate/event/high， Genapsed 收到后追加 trace_id，路由到 MiniLVM 处理。整个过程耗时不到 10 毫秒，而且全程可追踪。

方案 B：MiniLVM 图片 → 文本 demo（3 分钟）

前提：已部署 Qwen3-VL 推理脚本

操作流程：

准备 3-4 张家庭场景图片（客厅、厨房、一个人进门等）
逐一丢进推理脚本，展示模型输出文本描述
展示输出按时间线排布的效果

解说词示例：

这是一张客厅照片，Qwen3-VL 的输出来看一下—— 「下午 2 点 30 分，一个人抱着快递盒走进画面，放在茶几上，然后离开」这些文字会被自动写入时间线，成为可搜索的自然语言记录。

方案 C：文档体系展示（兜底方案，3 分钟）

无需代码运行，零风险

操作流程：

打开 Obsidian，展示项目文档库的结构
重点展示：Genapsed 详细设计、MQTT 协议规范、任务分解看板
打开 GitLab，展示提交历史和分支管理

解说词示例：

我们的项目从文档开始。这是 Genapsed 的完整设计，MQTT 的每一个 topic 命名、每一条消息的 JSON schema 都是白纸黑字写清楚了的。这是我们四个人的分工和进度看板，每个任务的预估时间、负责人、交付物都在上面。文档先行、小步快跑——这不是口号，是我们真正在做的事情。

附录｜可能的 Q&A 预判

问题	回答要点
你们的 LVM 在树莓派上跑得动吗？	Qwen3-VL-4B 量化后约 2.5GB 显存，树莓派 5 跑 ONNX 优化版可行；我们首选目标平台是家庭 NUC / NAS
DeepSeek API 不稳定怎么办？	LLM 层设计为可替换抽象接口，随时可以切换到 GPT、Claude 或其他模型；API 失效时系统回退到纯时间线文本搜索
隐私问题怎么解决？	LVM 推理在本地执行，视频数据不出家庭网络；仅 LLM 查询需要云 API，我们设计的是只发送脱敏后的时间线文本（无图像）给云端
你们的核心竞争力是什么？	不是单一模型或算法，而是系统架构——轻重结合的双层设计 + 平台化的插件生态，这是工程能力的体现
商业化打算吗？	先做好项目，参加比赛验证能力；商业化是 long-term 的选项，不是现在的目标
和 HomeAssistant 比有什么区别？	HA 是做设备联动和自动化——它管的是「开关」。我们管的是「理解画面」——两条赛道，可以互补

第一幕｜一个扎心的问题​

第二幕｜我们造了什么​

一句话定义​

用户怎么用​

第三幕｜技术的含金量——四两拨千斤​

亮点 1：轻重结合的双层 AI 架构​

亮点 2：不是插件，是平台​

亮点 3：通讯系统的工业级设计​

亮点 4：插件安全体系​

第四幕｜技术栈一览​

第五幕｜我们是谁，到了哪​

第六幕｜未来想象​

附｜演示预案​

方案 A：Genapsed 启动 + MQTT 消息流转演示（推荐，3 分钟）​

方案 B：MiniLVM 图片 → 文本 demo（3 分钟）​

方案 C：文档体系展示（兜底方案，3 分钟）​

附录｜可能的 Q&A 预判​

第一幕｜一个扎心的问题

第二幕｜我们造了什么

一句话定义

用户怎么用

第三幕｜技术的含金量——四两拨千斤

亮点 1：轻重结合的双层 AI 架构

亮点 2：不是插件，是平台

亮点 3：通讯系统的工业级设计

亮点 4：插件安全体系

第四幕｜技术栈一览

第五幕｜我们是谁，到了哪

第六幕｜未来想象

附｜演示预案

方案 A：Genapsed 启动 + MQTT 消息流转演示（推荐，3 分钟）

方案 B：MiniLVM 图片 → 文本 demo（3 分钟）

方案 C：文档体系展示（兜底方案，3 分钟）

附录｜可能的 Q&A 预判