跳到主要内容

视鉴中枢(Everpast-AI)· 路演演讲稿

基于演讲大纲的逐字逐段讲稿 标注了[语速提示]、[PPT翻页点]、[演示时刻] 粗体为强调内容/关键金句


第一幕|一个扎心的问题

[时长:约 2 分钟] [PPT:一张普通家用监控截图 + 无数进度条画面]

大家好。先问一个问题——你家装监控了吗?装了?好,那我再问一个扎心的问题:你有多久没翻过监控录像了?

买摄像头的时候想象的是安全感,结果打开回放一看:24 小时的画面,99% 是静止的走廊、趴着的猫、没人的客厅。你需要在进度条上盲猜——中午 12 点推一下,下午 3 点推一下——就像大海捞针。

[PPT:灵魂拷问三连]

我们真正想知道的其实是这些:

  • 「下午有人来过我家,他在客厅做了什么?」——你得回看 3 小时,快进 8 倍速,弄不好还得重看一遍
  • 「我桌上那把钥匙什么时候不见了?」——没人能回答你,除非你碰巧记得大概时间点
  • 「我今天在家到底把时间花在哪了?」——没人给你总结,录像也不会告诉你

[语速放慢,眼神扫观众一圈]

说到底,传统监控只做了一件事——「录」。它从来不负责 「懂」

这就是我们看到的空白:监控画面铺天盖地,但没有一个系统在真正理解画面里发生了什么。 录了,等于没录;看了,等于没看见。

我们的项目——「视鉴中枢 —— Everpast-AI」,就是来填这个空白的。


第二幕|我们造了什么

[时长:约 3 分钟] [PPT:系统概念图 / 「从看录像到读时间线」动画过渡]

一句话定义

「视鉴中枢」是一个基于家用监控画面、用 AI 自动理解一切的家庭智能中枢系统

它不是又一个监控 app。它做的事情可以概括成一个范式的根本转变

[PPT:左右对比——左边是堆叠的视频文件,右边是一条自然语言时间线]

从「看录像」到「读时间线」。

传统的核心资产是 视频文件,又大又难搜。我们的核心资产是 自然语言时间线——轻量级 AI 模型 7x24 小时把每一帧画面翻译成一句人话,按时间排好,像日记一样。

用户怎么用

[PPT:对话气泡动画——用户提问→系统回答→调出视频片段]

假设你在外面,想知道下午发生了什么。你不用打开监控 app 慢慢拖进度条。你直接打字或者语音问:

  • 「下午谁来过?在客厅做了什么?」
  • 「餐桌上的快递是什么时候拿走的?」

系统会先读时间线,用 LLM 推理出答案,然后用文字告诉你。如果你要看证据,它直接给你调出对应那几秒的视频片段——不是前后 5 分钟那种模糊定位,是精确到事件的几秒钟。

[微笑,停顿]

就像一个管家,二十四小时帮你看着家,还帮你记了日记——你只需要开口问。


第三幕|技术的含金量——四两拨千斤

[时长:约 5 分钟,这是全场的核心段落,语速要稳,眼神要坚定] [PPT:四个亮点依次展示,每个一页]

[过渡句]

有人可能会想:「听起来不错,但你们是一群学生,凭什么能做出这种东西?」

好问题。我来给你们看看我们的底牌。


亮点 1:轻重结合的双层 AI 架构

[PPT:天平图——左边小砝码「LVM 全天跑」,右边大砝码「LLM 按需召唤」]

做监控 AI 的第一道选择题是:模型放哪?

如果全程用 GPT-4 那种大模型来分析每一帧——对不起,你的电费比摄像头贵,延迟也受不了。如果全程用手机芯片上的小模型——精度又跟不上。

我们的解法很巧妙:两个模型,分工协作。

底层——轻量级 LVM(视觉语言模型),Qwen3-VL-4B 或 8B。

  • 这是一个只有 40 亿到 80 亿参数的多模态模型
  • 它可以在家庭 NAS 或 NUC 级别设备上全天候运行
  • 工作很简单:每隔几秒看一眼画面,用一句话描述出来
    • 「08:03 — 厨房灯光亮起,一个人走进画面」
    • 「14:27 — 一只猫跳上沙发,在靠枕上蜷缩」
    • 「18:45 — 餐桌前有两人用餐」
  • 功耗低,不吵不热,像家里多了一个安静的观察员

上层——重量级 LLM,DeepSeek R1 或 V3。

  • 当用户提出一个复杂问题,才召它出场
  • 它不负责看画面,而是:读时间线做推理 + 精准定位视频片段
  • 按量付费,不问不花钱

[手势:一轻一重]

轻的不累,重的不白干。一守一攻。这就是我们说的「轻重结合」。


亮点 2:不是插件,是平台

[PPT:树状图——主干是「核心中枢」,枝干是各个插件]

很多同类项目做了一个功能就收工了。我们选择了一条更难但更有想象空间的路。

我们从一开始就把系统设计成一个框架,而不是一个应用。

核心中枢只做三件事:

  1. 生成时间线——LVM 7x24h 把画面转成文字
  2. 路由消息——MQTT 总线让所有模块互通
  3. 管好插件——安装、卸载、健康检查、权限控制

[语速稍快,有节奏感]

那老人跌倒检测呢?不是核心——一个插件。时间分析报告呢?不是核心——一个插件。智能家居联动呢?不是核心——一个插件。即插即用,去之不伤本体。

就像 iOS 不自己做每一个 app,只提供底层和 API。我们的核心就是那个 iOS,插件就是那些 app。


亮点 3:通讯系统的工业级设计

[PPT:MQTT 架构图——插件 A → Genapsed Broker → 插件 B,带 QoS 标签]

当一个系统里有 5 个、10 个、甚至 20 个插件在同时跑,通讯就成了瓶颈。如果所有视频裸流都往中央转发——系统立刻挂掉。

我们借鉴了网络设计的核心思想:控制面与数据面分离。

[手势:左右分开]

控制面走 MQTT—— 指令、事件、心跳、状态。MQTT 的报头最小只有 2 个字节,支持发布/订阅模式,天然解耦。消息格式是标准 JSON,带着 trace_id 贯穿全程,从源头到终点全链路可追踪。

数据面走文件系统或 HTTP—— 视频片段、大图片、模型文件。不塞进消息总线,只传一个路径引用过去。

[加重语气]

我们还做了 QoS 分级:关键指令 QoS 2 ——确保送达且仅一次;事件通知 QoS 1——允许重复但不允许丢失;日志和状态 QoS 0——丢了就算了,最新的才重要。

这套设计的直接结果就是:Genapsed 永远只处理 KB 级别的 JSON 消息,永远不会被 GB 级别的视频拖垮。


亮点 4:插件安全体系

[PPT:两个容器——左边宿主机(认证),右边 Docker(未认证)]

当一个系统开放给第三方插件时,安全问题就来了。你的插件要是写个死循环或恶意代码,我不能让整个系统跟着陪葬。

所以我们做了两层安全:

  • 认证插件——经过审核的、信任的插件,可以直接在宿主机上跑,性能最优
  • 未认证插件——自动丢进 Docker 容器,文件系统隔离、网络权限受限

再加上 Topic 权限隔离:每个插件只能往自己的 topic 上发消息。Genapsed 控制一切路由。一个插件疯掉了,不会影响别人。


第四幕|技术栈一览

[时长:约 1.5 分钟] [PPT:表格一页展示,快速滑过]

[语速略快,自信连贯]

快速过一下我们选了什么、为什么选它,你们可以感受一下这个技术底子的厚度:

[每说一行,PPT 对应高亮一行]

层级选型为什么
视觉模型Qwen3-VL-4B/8B来自通义千问,HuggingFace 生态成熟,4B 版本家庭设备跑得动,8B 版本精度更高
推理模型DeepSeek R1/V3 API目前中文性价比最高的 API 之一,推理能力强,成本可控
视频底层Frigate NVR开源 NVR 绝对的标杆,Google 级的 API 设计,社区活跃
消息总线MQTT (Mosquitto / EMQX)IoT 领域的 TCP/IP,轻量、稳定、双向
插件沙箱Docker不用解释,行业标准
代码管理Git + Git LFS大文件版本控制,模型文件也能追历史
协作工具Obsidian + 飞书 + GitLab文档先行,知识沉淀,一切可追溯

[微笑,收]

可能你们注意到了——没有一个选型是蹭热度的,每一个都是经过团队讨论论证后敲定的。 我们不只是想堆技术,我们想建一个真正能跑的东西。


第五幕|我们是谁,到了哪

[时长:约 1.5 分钟] [PPT:团队四人的名字 + 一句话分工,进度时间线]

好的技术离不开好的团队。我们的核心团队有四个人:

[PPT 逐个亮出,每人配一句话职责]

  • @hexianglong——技术负责人,负责架构设计和时间线存储系统
  • @Archeroy——Genapsed 核心守护进程 + 插件系统的设计
  • @CainiaovH——Frigate NVR 集成 + 开发环境搭建
  • @Tetoisnothuman——MiniLVM 视觉模型 + LLM 查询引擎

[语速正常,带一点自豪感]

大家应该注意到了,这个分工完全对应前面讲的四个技术亮点:一人扛一块,互不重叠,互不拖累。

我们还有 IG 计算机方向的老师带着做指导,也在考虑未来参加相关赛事。

来看看进度:

[PPT:时间线——标注已完成 / 进行中 / 路线图]

  • 已完成:全套架构文档、MQTT 协议规范、Genapsed 设计、团队协作流程
  • 🔄 进行中:原型编码阶段——我们叫它 Vibe Coding,借助 AI 快速出原型
  • 📅 接下来的节点
    • 5月18日 — 核心组件原型可用
    • 5月28日 — 时间线生成 + 自然语言查询跑通
    • 6月15日 — 系统测试通过

这个项目从 3 月正式立项到现在两个月,我们从一张白纸走到了文档完备、原型编码中的阶段。节奏不算快,但每一步都很扎实。


第六幕|未来想象

[时长:约 1 分钟] [PPT:背景是插件生态图——老人看护、智能家居、每日回顾…]

[语速放慢,带一点前瞻性]

可能有人会问:做一个时间线生成系统,是不是就结束了?

不是。这只是开始。

因为我们的架构是开放的,真正有想象力的是这个底座上能长出来的东西:

  • 老人看护插件——检测到老人长时间没出现在客厅,或者半夜异常走动,自动推送告警
  • 时间分析插件——你今天几点出门几点回家、在沙发上坐了多久——比你自己还清楚
  • 智能家居联动——检测到厨房没人但燃气灶还亮着……自动关火
  • 每日回顾插件——一天发生了什么,AI 自动生成一页「家庭日报」

[站定,目光扫全场,语气笃定]

我们的愿景很清晰:不让监控只被看见,而让它被理解。

「录」这件事已经做了四十年了。是时候往前一步了。

谢谢大家。


附|演示预案

方案 A:Genapsed 启动 + MQTT 消息流转演示(推荐,3 分钟)

前提:已有 Genapsed 原型能在终端启动

操作流程:

  1. 终端启动 Genapsed,展示日志输出
  2. 打开第二个终端,展示 MQTT 订阅:everpast/+/+/+
  3. 模拟一条 Frigate 事件推送,展示消息在 MQTT 总线上流转
  4. 展示 Genapsed 路由到目标组件

解说词示例:

你们看,Frigate 检测到运动事件,一条 JSON 消息发到 everpast/frigate/event/high, Genapsed 收到后追加 trace_id,路由到 MiniLVM 处理。 整个过程耗时不到 10 毫秒,而且全程可追踪。

方案 B:MiniLVM 图片 → 文本 demo(3 分钟)

前提:已部署 Qwen3-VL 推理脚本

操作流程:

  1. 准备 3-4 张家庭场景图片(客厅、厨房、一个人进门等)
  2. 逐一丢进推理脚本,展示模型输出文本描述
  3. 展示输出按时间线排布的效果

解说词示例:

这是一张客厅照片,Qwen3-VL 的输出来看一下—— 「下午 2 点 30 分,一个人抱着快递盒走进画面,放在茶几上,然后离开」 这些文字会被自动写入时间线,成为可搜索的自然语言记录。

方案 C:文档体系展示(兜底方案,3 分钟)

无需代码运行,零风险

操作流程:

  1. 打开 Obsidian,展示项目文档库的结构
  2. 重点展示:Genapsed 详细设计、MQTT 协议规范、任务分解看板
  3. 打开 GitLab,展示提交历史和分支管理

解说词示例:

我们的项目从文档开始。这是 Genapsed 的完整设计,MQTT 的每一个 topic 命名、每一条消息的 JSON schema 都是白纸黑字写清楚了的。 这是我们四个人的分工和进度看板,每个任务的预估时间、负责人、交付物都在上面。 文档先行、小步快跑——这不是口号,是我们真正在做的事情。


附录|可能的 Q&A 预判

问题回答要点
你们的 LVM 在树莓派上跑得动吗?Qwen3-VL-4B 量化后约 2.5GB 显存,树莓派 5 跑 ONNX 优化版可行;我们首选目标平台是家庭 NUC / NAS
DeepSeek API 不稳定怎么办?LLM 层设计为可替换抽象接口,随时可以切换到 GPT、Claude 或其他模型;API 失效时系统回退到纯时间线文本搜索
隐私问题怎么解决?LVM 推理在本地执行,视频数据不出家庭网络;仅 LLM 查询需要云 API,我们设计的是只发送脱敏后的时间线文本(无图像)给云端
你们的核心竞争力是什么?不是单一模型或算法,而是系统架构——轻重结合的双层设计 + 平台化的插件生态,这是工程能力的体现
商业化打算吗?先做好项目,参加比赛验证能力;商业化是 long-term 的选项,不是现在的目标
和 HomeAssistant 比有什么区别?HA 是做设备联动和自动化——它管的是「开关」。我们管的是「理解画面」——两条赛道,可以互补