pyVideoTrans：一个视频丢进去，字幕、翻译、配音它自己往下跑

pyVideoTrans 这个名字，几乎没怎么藏。

我点开项目页，第一反应就是：它不想讲太多故事。

视频翻译。

就这件事。

丢一个视频进去，先识别语音，生成字幕，再翻译，后面接 AI 配音，最后把音频和画面合到一起。跑完之后，出来的是另一种语言的视频。

听着不复杂。

麻烦的是中间那些零碎步骤。

以前弄一个视频，先把音频抽出来。

再跑 ASR。

字幕拿去翻译。

翻译完再找配音工具。

配音出来还要对时间轴，哪里快了，哪里慢了，哪里一句话挤在一起。

最后再丢回视频里。

一个短视频还能忍。

多来几个，就不想点了。

pyVideoTrans 做的事，就是把这堆东西串成一条线。不是只给你翻字幕，后面声音、合成也一起接上。

我比较多看了两眼的，是它的声音克隆。

不是随便找一个机器声把译文念出来，而是尽量用原说话人的音色去生成目标语言配音。

比如中文视频转英文，开口以后，不至于突然变成另一个完全陌生的人。

当然，这东西别期待太满。

语气、停顿、嘴型，很多时候还是会露馅。尤其是原视频里说话节奏很碎，或者两个人抢话，翻译之后再塞回去，肯定会有地方别扭。

可方向对。

至少不是那种“字幕翻完了，声音随便念一下”的做法。

还有多说话人识别。

这个对访谈、播客、课程对话会有点用。

一个人一条声线，另一个人再分到另一个配音角色。全片一个声音念到底，听十分钟就累了。

我自己看这类工具，还有个小要求：别一键到底，把人关在外面。

pyVideoTrans 留了手动校对。

识别错了，可以改。

翻译太硬，也能改。

配音前先停一下，把字幕扫一遍。

这个很关键。

不然等它全跑完，才发现人名翻错了，专业词翻错了，或者某一句字幕断得很怪，又得回头拆一遍。视频处理最烦的就是返工，尤其是音频已经合进去之后。

它还给了 Windows 安装包。

这点挺实在。

很多开源视频工具看着很好，真装起来，Python、ffmpeg、模型、依赖，命令一条接一条。README 翻到一半，人已经有点烦了。

Windows 能直接装，至少少过一关。

pyVideoTrans 不是那种什么都想做的 AI 视频工具。

它就盯着一件事：

把一个视频翻成另一种语言。

字幕接上。

声音接上。

最后合回去。

GitHub地址： https://github.com/jianchang512/pyvideotrans