提高AI翻译字幕的质量
在使用AI翻译srt字幕时,通常有两种方式。
方式一:带字幕格式完整翻译,包括无需翻译的“行号”、“时间戳行”。
如下示例,带格式完整发送
1
00:00:01,950 --> 00:00:04,950
五老星系中发现了有机分子.
2
00:00:04,950 --> 00:00:07,902
我们离第三类接触还有多元。
3
00:00:07,902 --> 00:00:11,958
微波真是展开拍摄任务已经进来周年。
优点 兼顾上下文,翻译质量较好。
缺点 除了浪费token外,还有可能在翻译中导致字幕格式错乱,返回的翻译结果不再是合法是srt字幕格式。例如英文符号 ,: 可能被错误的改为中文符号,或将行号时间行合为一行等。
方式二:只发送字幕文本内容,然后再将翻译结果替换原字幕中对应文本。
如下格式,仅发送字幕文字
五老星系中发现了有机分子.
我们离第三类接触还有多元。
微波真是展开拍摄任务已经进来周年。
优点 能保证翻译结果一定是合法的srt字幕格式。
缺点 也很明显,一行一行的字幕文本翻译,无法兼顾上下文,翻译质量大为降低。
为解决这个问题,软件中支持一次性翻译多行,默认15行字幕,可一定程度上照应上下文。
但随之又引出一个新问题:不同语言语法规则、语句结构顺序有所不同,很可能出现原文是15行,翻译后变为了14行、13行等,特别是前面一行和后面一行在语法结构上是同一句子时。
15行原字幕翻译后不再是15行,这肯定导致字幕混乱,为解决这个问题,当翻译结果和原字幕行数不一致时,则重新一行一行翻译,确保前后字幕行数完全一致,舍弃照应上下文。
软件中默认使用的第二种方式,毕竟能用比好用更重要。
从版本v2.52起,新增了 第一种翻译方式 支持,默认不启用,如果想启用,需要手动开启,开启后,在使用ChatGPT/Gemini/AzureGPT/302.AI/字节火山/LocalLLM这些AI进行翻译时,将会完整发送带格式srt字幕进行翻译,能更好的照应上下文,提高翻译质量。
但必须注意, 第一种方式提到的问题可能会出现,导致结果不是合法srt字幕,可能出现解析错误或丢失错误之后的所有内容。建议只在足够智能的模型上使用该方式,例如 GPT-4o-mini或更大的模型,如果是本地部署的模型,不建议采用该方式,受限于硬件资源,本地部署的模型一般规模很小,不够智能,更容易出现翻译结果格式混乱。
开启第一种翻译方法:
菜单--工具/选项--高级选项--字幕翻译区域--AI智能翻译时发送完整字幕
增加术语表
每种提示词中均可添加自己的术语表,类似如下
**在翻译过程中,务必使用** 我提供的术语表进行术语的翻译,保持术语的一致性。具体术语表如下:
* Transformer -> Transformer
* Token -> Token
* LLM/Large Language Model -> 大语言模型
* Generative AI -> 生成式 AI
* One Health -> One Health
* Radiomics -> 影像组学
* OHHLEP -> OHHLEP
* STEM -> STEM
* SHAPE -> SHAPE
* Single-cell transcriptomics -> 单细胞转录组学
* Spatial transcriptomics -> 空间转录组学