用AI做了一个给小电影加字幕的工具

年纪越来越大,也越来越关注剧情了。

以前看看小日子的影片,可能更关注别的内容😀;现在反而经常会想:他们到底在聊什么?这什么逆天的人物关系?剧情推进到哪一步了?

听不清他们在说什么;翻遍互联网,也找不到现成字幕。

NAS里上百个小姐姐,字幕哪能配得齐全。

于是,趁着当下 vibe coding 火热,决定拿这个需求试试水,顺手做了个工具。


需求其实很简单

核心目标只有三个:

  • 把视频里的日语、英语语音识别出来

  • 翻译成中文字幕

  • 自动生成字幕文件,并尽量做到开箱即用


先让 AI 帮我做方案调研

用网页版 ChatGPT 做技术调研,梳理整个方案:

  • 本地语音识别用什么模型

  • 桌面端框架怎么选

  • 字幕时间轴怎么处理

  • 翻译层怎么接入

确认ok,开始ai梭哈。


全程 AI 编程:Codex + DeepSeek V4

基本全程交给 AI 协作完成。

主要组合是:

  • Codex:负责代码实现、逻辑补全、工程推进

  • DeepSeek V4:负责前端界面、样式优化、交互调整

说句实话,Codex 的审美真是烂完了。

无论你怎么提示,它做出来的界面总有一种:

临时拼出来的 demo 风
按钮随便摆一摆
间距狗屎
但却是能run

后续也测试了mimo2.5-pro,glm 5.1

mimo最大的问题是容易断连,智谱glm 就纯诈骗了,10个问题,9个超时或429,马勒戈壁的智谱什么时候给我退款!!!

果然国产扛大旗的还得是deepseek啊,在DeepSeek V4 发布后第一时间开始试用,简直超出想象,逻辑深度真的非常ok,并且也非常便宜。

但问题还是项目过于复杂时,感官上好像没有gpt5.5聪明。其它时候也感受不出差别,保守评测,和5.4中等差不多水平吧,也很是满意了。

但 DeepSeek V4 在 UI 上的表现出乎意料,比较符合我对工具类软件的要求:

  • 极简

  • 清爽

  • 不花哨

所以最后该项目相当于是codex与deepseek混合着开发。

也发现一个很好笑的,原本在作者栏留下了我和gpt的名字,但deepseek接手时,就默默把gpt去掉了哈哈哈哈哈,于是手动改成“作者:kuraa,gpt,deepseek”,但codex又会把deepseek去掉:)。


目前这个工具最大的难题

目前没有内置翻译引擎。

这意味着用户需要自己填写:

  • OpenAI API Key

  • DeepSeek API Key

  • 或其他兼容接口

对于熟悉 AI 工具的人来说,这不算问题。

但对于普通用户而言:

  • 什么是 API Key?

  • 去哪申请?

  • 为什么还要充值?

  • Base URL 又是什么?

这些步骤足以劝退很多人。


我想过把模型内置进去

最开始也考虑过:直接塞一个本地小模型进去,离线翻译。

听起来很美好,但现实是:

即便是“小模型”,你仍然需要:

  • 模型文件

  • 推理框架

  • Runtime 依赖

  • 各平台兼容支持

这几个东西加起来,怎么也得接近 1GB 甚至更多。

而我做的是桌面小工具。

一个“加字幕软件”安装包 1GB+,用户看到体积就先关网页了。


也想过 WebView 白嫖浏览器翻译

后来我又想到另一个方向:

既然桌面端用了 WebView,能不能直接调用浏览器已有翻译能力?

理论上很香:

  • 无需 API Key

  • 无需模型下载

  • 包体积小

  • 用户零门槛

但实际落地后发现问题也不少:

  • 平台兼容性不一致

  • 可控性差

  • 翻译结果格式难约束

  • 批量文本处理体验一般

最大问题是,效果很差啊,没有上下文,特别是日文这种啰里啰唆的语言,单句翻译效果很不好。

所以这个方案暂时还在观察。


做完后最大的感受

以前遇到这种小需求,大多数人会想:

算了,忍忍吧。
市面上应该没人做。
太小众了。

但铁汁!AI 时代来了!!!

如果不是为了使用流畅与美观,核心功能基本2两小时就搞完了!

以后不需要古法编程了:(

好了,地址在这儿,感谢小伙子们使用。

https://git.kuraa.cc/kura/crosssubtitle-ai