用AI做了一个给小电影加字幕的工具

饭

2026-05-04

生活啰里八唆 ❗灵感一现

年纪越来越大，也越来越关注剧情了。

以前看看小日子的影片，可能更关注别的内容😀；现在反而经常会想：他们到底在聊什么？这什么逆天的人物关系？剧情推进到哪一步了？

听不清他们在说什么；翻遍互联网，也找不到现成字幕。

NAS里上百个小姐姐，字幕哪能配得齐全。

于是，趁着当下 vibe coding 火热，决定拿这个需求试试水，顺手做了个工具。

需求其实很简单

核心目标只有三个：

把视频里的日语、英语语音识别出来
翻译成中文字幕
自动生成字幕文件，并尽量做到开箱即用

先让 AI 帮我做方案调研

用网页版 ChatGPT 做技术调研，梳理整个方案：

本地语音识别用什么模型
桌面端框架怎么选
字幕时间轴怎么处理
翻译层怎么接入

确认ok，开始ai梭哈。

全程 AI 编程：Codex + DeepSeek V4

基本全程交给 AI 协作完成。

主要组合是：

Codex：负责代码实现、逻辑补全、工程推进
DeepSeek V4：负责前端界面、样式优化、交互调整

说句实话，Codex 的审美真是烂完了。

无论你怎么提示，它做出来的界面总有一种：

临时拼出来的 demo 风
按钮随便摆一摆
间距狗屎
但却是能run

后续也测试了mimo2.5-pro，glm 5.1

mimo最大的问题是容易断连，智谱glm 就纯诈骗了，10个问题，9个超时或429，马勒戈壁的智谱什么时候给我退款！！！

果然国产扛大旗的还得是deepseek啊，在DeepSeek V4 发布后第一时间开始试用，简直超出想象，逻辑深度真的非常ok，并且也非常便宜。

但问题还是项目过于复杂时，感官上好像没有gpt5.5聪明。其它时候也感受不出差别，保守评测，和5.4中等差不多水平吧，也很是满意了。

但 DeepSeek V4 在 UI 上的表现出乎意料，比较符合我对工具类软件的要求：

极简
清爽
不花哨

所以最后该项目相当于是codex与deepseek混合着开发。

也发现一个很好笑的，原本在作者栏留下了我和gpt的名字，但deepseek接手时，就默默把gpt去掉了哈哈哈哈哈，于是手动改成“作者：kuraa，gpt，deepseek”，但codex又会把deepseek去掉：）。

目前这个工具最大的难题

目前没有内置翻译引擎。

这意味着用户需要自己填写：

OpenAI API Key
DeepSeek API Key
或其他兼容接口

对于熟悉 AI 工具的人来说，这不算问题。

但对于普通用户而言：

什么是 API Key？
去哪申请？
为什么还要充值？
Base URL 又是什么？

这些步骤足以劝退很多人。

我想过把模型内置进去

最开始也考虑过：直接塞一个本地小模型进去，离线翻译。

听起来很美好，但现实是：

即便是“小模型”，你仍然需要：

模型文件
推理框架
Runtime 依赖
各平台兼容支持

这几个东西加起来，怎么也得接近 1GB 甚至更多。

而我做的是桌面小工具。

一个“加字幕软件”安装包 1GB+，用户看到体积就先关网页了。

也想过 WebView 白嫖浏览器翻译

后来我又想到另一个方向：

既然桌面端用了 WebView，能不能直接调用浏览器已有翻译能力？

理论上很香：

无需 API Key
无需模型下载
包体积小
用户零门槛

但实际落地后发现问题也不少：

平台兼容性不一致
可控性差
翻译结果格式难约束
批量文本处理体验一般

最大问题是，效果很差啊，没有上下文，特别是日文这种啰里啰唆的语言，单句翻译效果很不好。

所以这个方案暂时还在观察。

做完后最大的感受

以前遇到这种小需求，大多数人会想：

算了，忍忍吧。
市面上应该没人做。
太小众了。

但铁汁！AI 时代来了！！！

如果不是为了使用流畅与美观，核心功能基本2两小时就搞完了！

以后不需要古法编程了：（

好了，地址在这儿，感谢小伙子们使用。

https://git.kuraa.cc/kura/crosssubtitle-ai