pyVideoTrans 这个名字,几乎没怎么藏。
我点开项目页,第一反应就是:它不想讲太多故事。
视频翻译。
就这件事。
丢一个视频进去,先识别语音,生成字幕,再翻译,后面接 AI 配音,最后把音频和画面合到一起。跑完之后,出来的是另一种语言的视频。
听着不复杂。
麻烦的是中间那些零碎步骤。

以前弄一个视频,先把音频抽出来。
再跑 ASR。
字幕拿去翻译。
翻译完再找配音工具。
配音出来还要对时间轴,哪里快了,哪里慢了,哪里一句话挤在一起。
最后再丢回视频里。
一个短视频还能忍。
多来几个,就不想点了。
pyVideoTrans 做的事,就是把这堆东西串成一条线。不是只给你翻字幕,后面声音、合成也一起接上。
我比较多看了两眼的,是它的声音克隆。
不是随便找一个机器声把译文念出来,而是尽量用原说话人的音色去生成目标语言配音。
比如中文视频转英文,开口以后,不至于突然变成另一个完全陌生的人。
当然,这东西别期待太满。
语气、停顿、嘴型,很多时候还是会露馅。尤其是原视频里说话节奏很碎,或者两个人抢话,翻译之后再塞回去,肯定会有地方别扭。
可方向对。
至少不是那种“字幕翻完了,声音随便念一下”的做法。
还有多说话人识别。
这个对访谈、播客、课程对话会有点用。
一个人一条声线,另一个人再分到另一个配音角色。全片一个声音念到底,听十分钟就累了。
我自己看这类工具,还有个小要求:别一键到底,把人关在外面。
pyVideoTrans 留了手动校对。
识别错了,可以改。
翻译太硬,也能改。
配音前先停一下,把字幕扫一遍。
这个很关键。
不然等它全跑完,才发现人名翻错了,专业词翻错了,或者某一句字幕断得很怪,又得回头拆一遍。视频处理最烦的就是返工,尤其是音频已经合进去之后。
它还给了 Windows 安装包。
这点挺实在。
很多开源视频工具看着很好,真装起来,Python、ffmpeg、模型、依赖,命令一条接一条。README 翻到一半,人已经有点烦了。
Windows 能直接装,至少少过一关。
pyVideoTrans 不是那种什么都想做的 AI 视频工具。
它就盯着一件事:
把一个视频翻成另一种语言。
字幕接上。
声音接上。
最后合回去。
