pyVideoTrans:一个视频丢进去,字幕、翻译、配音它自己往下跑

pyVideoTrans 这个名字,几乎没怎么藏。

我点开项目页,第一反应就是:它不想讲太多故事。

视频翻译。

就这件事。

丢一个视频进去,先识别语音,生成字幕,再翻译,后面接 AI 配音,最后把音频和画面合到一起。跑完之后,出来的是另一种语言的视频。

听着不复杂。

麻烦的是中间那些零碎步骤。

以前弄一个视频,先把音频抽出来。

再跑 ASR。

字幕拿去翻译。

翻译完再找配音工具。

配音出来还要对时间轴,哪里快了,哪里慢了,哪里一句话挤在一起。

最后再丢回视频里。

一个短视频还能忍。

多来几个,就不想点了。

pyVideoTrans 做的事,就是把这堆东西串成一条线。不是只给你翻字幕,后面声音、合成也一起接上。

我比较多看了两眼的,是它的声音克隆。

不是随便找一个机器声把译文念出来,而是尽量用原说话人的音色去生成目标语言配音。

比如中文视频转英文,开口以后,不至于突然变成另一个完全陌生的人。

当然,这东西别期待太满。

语气、停顿、嘴型,很多时候还是会露馅。尤其是原视频里说话节奏很碎,或者两个人抢话,翻译之后再塞回去,肯定会有地方别扭。

可方向对。

至少不是那种“字幕翻完了,声音随便念一下”的做法。

还有多说话人识别。

这个对访谈、播客、课程对话会有点用。

一个人一条声线,另一个人再分到另一个配音角色。全片一个声音念到底,听十分钟就累了。

我自己看这类工具,还有个小要求:别一键到底,把人关在外面。

pyVideoTrans 留了手动校对。

识别错了,可以改。

翻译太硬,也能改。

配音前先停一下,把字幕扫一遍。

这个很关键。

不然等它全跑完,才发现人名翻错了,专业词翻错了,或者某一句字幕断得很怪,又得回头拆一遍。视频处理最烦的就是返工,尤其是音频已经合进去之后。

它还给了 Windows 安装包。

这点挺实在。

很多开源视频工具看着很好,真装起来,Python、ffmpeg、模型、依赖,命令一条接一条。README 翻到一半,人已经有点烦了。

Windows 能直接装,至少少过一关。

pyVideoTrans 不是那种什么都想做的 AI 视频工具。

它就盯着一件事:

把一个视频翻成另一种语言。

字幕接上。

声音接上。

最后合回去。

GitHub地址: https://github.com/jianchang512/pyvideotrans

返回分类列表