视鉴中枢(Everpast-AI)· 路演演讲稿
基于演讲大纲的逐字逐段讲稿 标注了[语速提示]、[PPT翻页点]、[演示时刻] 粗体为强调内容/关键金句
第一幕|一个扎心的问题
[时长:约 2 分钟] [PPT:一张普通家用监控截图 + 无数进度条画面]
大家好。先问一个问题——你家装监控了吗?装了?好,那我再问一个扎心的问题:你有多久没翻过监控录像了?
买摄像头的时候想象的是安全感,结果打开回放一看:24 小时的画面,99% 是静止的走廊、趴着的猫、没人的客厅。你需要在进度条上盲猜——中午 12 点推一下,下午 3 点推一下——就像大海捞针。
[PPT:灵魂拷问三连]
我们真正想知道的其实是这些:
- 「下午有人来过我家,他在客厅做了什么?」——你得回看 3 小时,快进 8 倍速,弄不好还得重看一遍
- 「我桌上那把钥匙什么时候不见了?」——没人能回答你,除非你碰巧记得大概时间点
- 「我今天在家到底把时间花在哪了?」——没人给你总结,录像也不会告诉你
[语速放慢,眼神扫观众一圈]
说到底,传统监控只做了一件事——「录」。它从来不负责 「懂」。
这就是我们看到的空白:监控画面铺天盖地,但没有一个系统在真正理解画面里发生了什么。 录了,等于没录;看了,等于没看见。
我们的项目——「视鉴中枢 —— Everpast-AI」,就是来填这个空白的。
第二幕|我们造了什么
[时长:约 3 分钟] [PPT:系统概念图 / 「从看录像到读时间线」动画过渡]
一句话定义
「视鉴中枢」是一个基于家用监控画面、用 AI 自动理解一切的家庭智能中枢系统。
它不是又一个监控 app。它做的事情可以概括成一个范式的根本转变:
[PPT:左右对比——左边是堆叠的视频文件,右边是一条自然语言时间线]
从「看录像」到「读时间线」。
传统的核心资产是 视频文件,又大又难搜。我们的核心资产是 自然语言时间线——轻量级 AI 模型 7x24 小时把每一帧画面翻译成一句人话,按时间排好,像日记一样。
用户怎么用
[PPT:对话气泡动画——用户提问→系统回答→调出视频片段]
假设你在外面,想知道下午发生了什么。你不用打开监控 app 慢慢拖进度条。你直接打字或者语音问:
- 「下午谁来过?在客厅做了什么?」
- 「餐桌上的快递是什么时候拿走的?」
系统会先读时间线,用 LLM 推理出答案,然后用文字告诉你。如果你要看证据,它直接给你调出对应那几秒的视频片段——不是前后 5 分钟那种模糊定位,是精确到事件的几秒钟。
[微笑,停顿]
就像一个管家,二十四小时帮你看着家,还帮你记了日记——你只需要开口问。
第三幕|技术的含金量——四两拨千斤
[时长:约 5 分钟,这是全场的核心段落,语速要稳,眼神要坚定] [PPT:四个亮点依次展示,每个一页]
[过渡句]
有人可能会想:「听起来不错,但你们是一群学生,凭什么能做出这种东西?」
好问题。我来给你们看看我们的底牌。
亮点 1:轻重结合的双层 AI 架构
[PPT:天平图——左边小砝码「LVM 全天跑」,右边大砝码「LLM 按需召唤」]
做监控 AI 的第一道选择题是:模型放哪?
如果全程用 GPT-4 那种大模型来分析每一帧——对不起,你的电费比摄像头贵,延迟也受不了。如果全程用手机芯片上的小模型——精度又跟不上。
我们的解法很巧妙:两个模型,分工协作。
底层——轻量级 LVM(视觉语言模型),Qwen3-VL-4B 或 8B。
- 这是一个只有 40 亿到 80 亿参数的多模态模型
- 它可以在家庭 NAS 或 NUC 级别设备上全天候运行
- 工作很简单:每隔几秒看一眼画面,用一句话描述出来
- 「08:03 — 厨房灯光亮起,一个人走进画面」
- 「14:27 — 一只猫跳上沙发,在靠枕上蜷缩」
- 「18:45 — 餐桌前有两人用餐」
- 功耗低,不吵不热,像家里多了一个安静的观察员
上层——重量级 LLM,DeepSeek R1 或 V3。
- 当用户提出一个复杂问题,才召它出场
- 它不负责看画面,而是:读时间线做推理 + 精准定位视频片段
- 按量付费,不问不花钱
[手势:一轻一重]
轻的不累,重的不白干。一守一攻。这就是我们说的「轻重结合」。
亮点 2:不是插件,是平台
[PPT:树状图——主干是「核心中枢」,枝干是各个插件]
很多同类项目做了一个功能就收工了。我们选择了一条更难但更有想象空间的路。
我们从一开始就把系统设计成一个框架,而不是一个应用。
核心中枢只做三件事:
- 生成时间线——LVM 7x24h 把画面转成文字
- 路由消息——MQTT 总线让所有模块互通
- 管好插件——安装、卸载、健康检查、权限控制
[语速稍快,有节奏感]
那老人跌倒检测呢?不是核心——一个插件。时间分析报告呢?不是核心——一个插件。智能家居联动呢?不是核心——一个插件。即插即用,去之不伤本体。
就像 iOS 不自己做每一个 app,只提供底层和 API。我们的核心就是那个 iOS,插件就是那些 app。
亮点 3:通讯系统的工业级设计
[PPT:MQTT 架构图——插件 A → Genapsed Broker → 插件 B,带 QoS 标签]
当一个系统里有 5 个、10 个、甚至 20 个插件在同时跑,通讯就成了瓶颈。如果所有视频裸流都往中央转发——系统立刻挂掉。
我们借鉴了网络设计的核心思想:控制面与数据面分离。
[手势:左右分开]
控制面走 MQTT—— 指令、事件、心跳、状态。MQTT 的报头最小只有 2 个字节,支持发布/订阅模式,天然解耦。消息格式是标准 JSON,带着 trace_id 贯穿全程,从源头到终点全链路可追踪。
数据面走文件系统或 HTTP—— 视频片段、大图片、模型文件。不塞进消息总线,只传一个路径引用过去。
[加重语气]
我们还做了 QoS 分级:关键指令 QoS 2 ——确保送达且仅一次;事件通知 QoS 1——允许重复但不允许丢失;日志和状态 QoS 0——丢了就算了,最新的才重要。
这套设计的直接结果就是:Genapsed 永远只处理 KB 级别的 JSON 消息,永远不会被 GB 级别的视频拖垮。
亮点 4:插件安全体系
[PPT:两个容器——左边宿主机(认证),右边 Docker(未认证)]
当一个系统开放给第三方插件时,安全问题就来了。你的插件要是写个死循环或恶意代码,我不能让整个系统跟着陪葬。
所以我们做了两层安全:
- 认证插件——经过审核的、信任的插件,可以直接在宿主机上跑,性能最优
- 未认证插件——自动丢进 Docker 容器,文件系统隔离、网络权限受限
再加上 Topic 权限隔离:每个插件只能往自己的 topic 上发消息。Genapsed 控制一切路由。一个插件疯掉了,不会影响别人。
第四幕|技术栈一览
[时长:约 1.5 分钟] [PPT:表格一页展示,快速滑过]
[语速略快,自信连贯]
快速过一下我们选了什么、为什么选它,你们可以感受一下这个技术底子的厚度:
[每说一行,PPT 对应高亮一行]
| 层级 | 选型 | 为什么 |
|---|---|---|
| 视觉模型 | Qwen3-VL-4B/8B | 来自通义千问,HuggingFace 生态成熟,4B 版本家庭设备跑得动,8B 版本精度更高 |
| 推理模型 | DeepSeek R1/V3 API | 目前中文性价比最高的 API 之一,推理能力强,成本可控 |
| 视频底层 | Frigate NVR | 开源 NVR 绝对的标杆,Google 级的 API 设计,社区活跃 |
| 消息总线 | MQTT (Mosquitto / EMQX) | IoT 领域的 TCP/IP,轻量、稳定、双向 |
| 插件沙箱 | Docker | 不用解释,行业标准 |
| 代码管理 | Git + Git LFS | 大文件版本控制,模型文件也能追历史 |
| 协作工具 | Obsidian + 飞书 + GitLab | 文档先行,知识沉淀,一切可追溯 |
[微笑,收]
可能你们注意到了——没有一个选型是蹭热度的,每一个都是经过团队讨论论证后敲定的。 我们不只是想堆技术,我们想建一个真正能跑的东西。
第五幕|我们是谁,到了哪
[时长:约 1.5 分钟] [PPT:团队四人的名字 + 一句话分工,进度时间线]
好的技术离不开好的团队。我们的核心团队有四个人:
[PPT 逐个亮出,每人配一句话职责]
- @hexianglong——技术负责人,负责架构设计和时间线存储系统
- @Archeroy——Genapsed 核心守护进程 + 插件系统的设计
- @CainiaovH——Frigate NVR 集成 + 开发环境搭建
- @Tetoisnothuman——MiniLVM 视觉模型 + LLM 查询引擎
[语速正常,带一点自豪感]
大家应该注意到了,这个分工完全对应前面讲的四个技术亮点:一人扛一块,互不重叠,互不拖累。
我们还有 IG 计算机方向的老师带着做指导,也在考虑未来参加相关赛事。
来看看进度:
[PPT:时间线——标注已完成 / 进行中 / 路线图]
- ✅ 已完成:全套架构文档、MQTT 协议规范、Genapsed 设计、团队协作流程
- 🔄 进行中:原型编码阶段——我们叫它 Vibe Coding,借助 AI 快速出原型
- 📅 接下来的节点:
- 5月18日 — 核心组件原型可用
- 5月28日 — 时间线生成 + 自然语言查询跑通
- 6月15日 — 系统测试通过
这个项目从 3 月正式立项到现在两个月,我们从一张白纸走到了文档完备、原型编码中的阶段。节奏不算快,但每一步都很扎实。
第六幕|未来想象
[时长:约 1 分钟] [PPT:背景是插件生态图——老人看护、智能家居、每日回顾…]
[语速放慢,带一点前瞻性]
可能有人会问:做一个时间线生成系统,是不是就结束了?
不是。这只是开始。
因为我们的架构是开放的,真正有想象力的是这个底座上能长出来的东西:
- 老人看护插件——检测到老人长时间没出现在客厅,或者半夜异常走动,自动推送告警
- 时间分析插件——你今天几点出门几点回家、在沙发上坐了多久——比你自己还清楚
- 智能家居联动——检测到厨房没人但燃气灶还亮着……自动关火
- 每日回顾插件——一天发生了什么,AI 自动生成一页「家庭日报」
[站定,目光扫全场,语气笃定]
我们的愿景很清晰:不让监控只被看见,而让它被理解。
「录」这件事已经做了四十年了。是时候往前一步了。
谢谢大家。
附|演示预案
方案 A:Genapsed 启动 + MQTT 消息流转演示(推荐,3 分钟)
前提:已有 Genapsed 原型能在终端启动
操作流程:
- 终端启动 Genapsed,展示日志输出
- 打开第二个终端,展示 MQTT 订阅:
everpast/+/+/+ - 模拟一条 Frigate 事件推送,展示消息在 MQTT 总线上流转
- 展示 Genapsed 路由到目标组件
解说词示例:
你们看,Frigate 检测到运动事件,一条 JSON 消息发到
everpast/frigate/event/high, Genapsed 收到后追加 trace_id,路由到 MiniLVM 处理。 整个过程耗时不到 10 毫秒,而且全程可追踪。
方案 B:MiniLVM 图片 → 文本 demo(3 分钟)
前提:已部署 Qwen3-VL 推理脚本
操作流程:
- 准备 3-4 张家庭场景图片(客厅、厨房、一个人进门等)
- 逐一丢进推理脚本,展示模型输出文本描述
- 展示输出按时间线排布的效果
解说词示例:
这是一张客厅照片,Qwen3-VL 的输出来看一下—— 「下午 2 点 30 分,一个人抱着快递盒走进画面,放在茶几上,然后离开」 这些文字会被自动写入时间线,成为可搜索的自然语言记录。
方案 C:文档体系展示(兜底方案,3 分钟)
无需代码运行,零风险
操作流程:
- 打开 Obsidian,展示项目文档库的结构
- 重点展示:Genapsed 详细设计、MQTT 协议规范、任务分解看板
- 打开 GitLab,展示提交历史和分支管理
解说词示例:
我们的项目从文档开始。这是 Genapsed 的完整设计,MQTT 的每一个 topic 命名、每一条消息的 JSON schema 都是白纸黑字写清楚了的。 这是我们四个人的分工和进度看板,每个任务的预估时间、负责人、交付物都在上面。 文档先行、小步快跑——这不是口号,是我们真正在做的事情。
附录|可能的 Q&A 预判
| 问题 | 回答要点 |
|---|---|
| 你们的 LVM 在树莓派上跑得动吗? | Qwen3-VL-4B 量化后约 2.5GB 显存,树莓派 5 跑 ONNX 优化版可行;我们首选目标平台是家庭 NUC / NAS |
| DeepSeek API 不稳定怎么办? | LLM 层设计为可替换抽象接口,随时可以切换到 GPT、Claude 或其他模型;API 失效时系统回退到纯时间线文本搜索 |
| 隐私问题怎么解决? | LVM 推理在本地执行,视频数据不出家庭网络;仅 LLM 查询需要云 API,我们设计的是只发送脱敏后的时间线文本(无图像)给云端 |
| 你们的核心竞争力是什么? | 不是单一模型或算法,而是系统架构——轻重结合的双层设计 + 平台化的插件生态,这是工程能力的体现 |
| 商业化打算吗? | 先做好项目,参加比赛验证能力;商业化是 long-term 的选项,不是现在的目标 |
| 和 HomeAssistant 比有什么区别? | HA 是做设备联动和自动化——它管的是「开关」。我们管的是「理解画面」——两条赛道,可以互补 |