我打造了一款像人类而非计算机那样“观看”的视频人工智能

大多数视频人工智能的工作原理如下：

查看第 1 帧 → 检测对象 → 完成。
查看第 2 帧 → 检测对象 → 完成。
查看第 3 帧 → 检测对象 → 完成。

每一帧都是独立的。系统没有记忆。
它不知道一秒钟前发生了什么。

这就像在每帧之间闭着眼睛看电影。
你看到的只是快照。
你错过了故事的全貌。

我构建了一些不同的东西。

两个层在每个视频上同时运行。

第一层 — 帧分析。尤洛 v8（YOLOv8）独立地查看每一
帧。对象、人物、危险
物品。快速。准确。无上下文。

第二层 — 序列分析。移动网 v2（MobileNetV2）跟踪
跨多帧的特征模式。运动
趋势。场景稳定性。渐变。上下文。

这就是其重要性所在：

单帧告诉你那里有什么。
序列告诉你正在发生什么。

一个静止不动的人在任何单
帧中看起来都很正常。但在 50 帧之后，他们仍然在
完全相同的位置 — 那就是徘徊。
只有序列分析才能捕捉到这一点。

以下是使其工作的架构：

我在一个真实的交通视频上进行了测试。

自动处理了 1,800 帧。
检测到 1,220 起拥挤事件。
零次高严重性误报。
完成后自动生成视觉报告并在浏览器中打开。

没有人审查过任何一帧。

完整代码开源：
github.com/heManKuMAR6/video-analytics-pipeline

这是我系列中的第六个项目。也是
第一个不使用大型语言模型的项目 — 纯计算机视觉
和实时系统。

下周 — 我在一周内构建六个代理式和人工智能系统的经验教训，以及我会如何不同地去做。

如果你想继续关注，请订阅。

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。