跳到主要内容

视鉴中枢(Everpast-AI)· 三分钟闪电演讲稿


大家好。先问一个问题——你家装了监控吗?

再问一个扎心的问题:你有多久没翻过录像了?24 小时的画面,99% 是静止的画面。你想知道「下午谁来过我家」,就得拖进度条半小时。

传统监控只做了一件事——。它从来不负责

这就是我们要填的空白。


我们做的项目叫「视鉴中枢 —— Everpast-AI」。

一句话:一个基于家用监控画面、用 AI 自动理解一切的智能中枢系统。

核心是一个范式的转变:从「看录像」到「读时间线」。

轻量级 AI 模型 7x24 小时把每一帧画面翻译成一句话——「下午 2 点 30 分,一个人抱着快递盒走进客厅,放在茶几上」,按时间排好,像日记一样。

用户直接问:「下午谁拿走了客厅的水杯?」系统先读时间线推理出答案,再精准调出对应那几秒的视频片段。


实现这件事,我们用了四两拨千斤的架构。

第一,轻重结合的双层 AI。 底层 Qwen3-VL-4B 全天候低功耗跑在家庭设备上,把画面转成文字;上层 DeepSeek API 只在用户提问时才召来推理。轻的不累,重的不白干。

第二,系统是平台不是应用。 核心中枢只做三件事:生成时间线、路由消息、管好插件。老人看护、摔倒检测、智能家居联动、每日回顾——都是插件,即插即用。AI 的提示词可以按场景定制,功能可以靠插件无限扩展。 装一个老人看护插件,它就是养老助手;装一个厨房安全插件,它就是防火卫士。同一个底座,适配完全不同的场景——这就是平台的力量。

第三,通讯系统是工业级设计。 MQTT 做控制面,指令和事件走 MQTT;视频大文件走文件系统传引用。控制面和数据面彻底分离,核心模块永远不被大文件拖垮。加上 QoS 分级和全链路 trace_id 追踪。

技术栈选型:Qwen3-VL 轻量视觉语言模型 + DeepSeek 推理 API + Frigate NVR 视频底层 + MQTT 消息总线 + Docker 插件沙箱。没有一个选型是蹭热度的。


我们是一个四人团队,分工贴合我刚才讲的每一块。

项目 3 月立项,两个月走完了全套架构设计,现在进入原型编码。5 月底时间线生成和查询功能跑通,6 月完成系统测试。


最后说一句我们的愿景。

我们不只让监控被看见,我们让它被理解。

「录」这件事已经做了四十年。是时候往前一步了。

谢谢大家。


Q&A 准备

Q1:你们和市面上的 AI 摄像头有什么区别?

市面上所谓的 AI 摄像头只能做几件固定的事——人脸识别、移动侦测、区域入侵。功能是写死的,不能改,不能加。我们的系统是开放平台——核心只生成时间线,所有上层功能都是插件。改一个场景换一个插件就行,不需要换硬件。

Q2:隐私问题怎么解决?

视频推理全在本地设备上完成,画面不出家庭网络。只有用户主动提问时,脱敏后的时间线文本(不带图像)才会发到云端 LLM 做推理。而且 LLM 接口设计为可替换,不想用云 API,可以接本地运行的模型。

Q3:DeepSeek API 不稳定怎么办?

LLM 层是抽象接口,可以随时切换到 GPT、Claude 或其他模型。API 不可用时系统自动回退到纯文本搜索——虽然智能程度降低,但基础查询功能不掉。

Q4:在普通家庭设备上跑得动吗?

Qwen3-VL-4B 量化后约 2.5GB 显存,一块千元级 GPU 或新款 NUC 就能跑。如果设备确实不够,也可以用纯 CPU 加 ONNX 优化方案。目标平台是家庭 NAS 或迷你主机。

Q5:你们的核心竞争力是什么?和 HomeAssistant 比呢?

核心竞争力不是某一个模型,而是系统架构——轻重双层 AI 的分工、MQTT 控制面/数据面分离、插件化平台设计,这些都是工程能力的体现。

和 HomeAssistant 的区别:HA 管的是设备联动和自动化,是「开关层面」的事。我们管的是理解画面,是「视觉层面」的事。两条赛道,完全可以互补嵌套。

Q6:你们做到什么程度了?还是只有文档?

3 月立项,两个月走完了完整的架构设计和协议规范。现在正在进行原型编码——Genapsed 核心框架、Frigate 集成适配层、MiniLVM 推理脚本同步推进。5 月底第一个可演示的版本就会出来。

Q7:未来打算怎么用?只有家里能用吗?

底座本身是和摄像头无关的。换成店铺摄像头就是零售分析系统,换成工位摄像头就是工位监测系统。提示词一换、插件一换,场景就变了——这就是插件化的威力。