项目名称:Sub2Tm(暂定)
项目目标:从人人影视网站上批量下载字幕文件,提取字幕文件中的中英平行文本,最终将其制作成翻译记忆库
项目工具:GitHub-代码协作/微信-团队沟通/SDL Trados Studio-翻译记忆库制作/…
项目流程:
由于三个目标前后有承接关系,无法同时进行,因此按目标将任务细分成了三个阶段。每个阶段主要由一个人负责,其他两个人负责协助。
- 阶段一:2018年5月7日——2018年5月16日(10天)
描述:编写脚本从人人影视网站上批量下载字幕文件(及其对应的元信息)
阶段性成果:按文件夹放置的字幕文件(及其对应的元信息)
负责人:(待定) 协助:(待定)
- 阶段二:2018年5月17日——2018年5月26日(10天)
描述:用正则表达式(或其他方式)从字幕文件中提取出中英平行文本,并将其(及其对应的元信息)存入数据库
阶段性成果:一个包含所有中英平行文本(及其对应的元信息)的数据库
负责人:(待定) 协助:(待定)
- 阶段三:2018年5月27日——2018年6月5日(10天)
描述:从数据库中提取中英平行文本(及其对应的元信息)并利用SDL Trados Studio(或其他工具)制作成tmx格式(以及更多种格式)的(包含字幕元信息)的翻译记忆库
阶段性成果:(各种格式的)翻译记忆库
负责人:(待定) 协助:(待定)
- 阶段四:2018年6月6日——2018年6月9日(4天)
描述:弹性时间,减少项目风险;制作汇总最终的PPT
阶段性成果:汇报PPT
负责人:韩广芝、姬银秀、李涛
备注:正文部分中的括号内容是更高一点的目标。所谓的字幕元信息指的是此字幕所属于哪部剧集、发布时间是什么时候、原始链接是什么等。如果我们的最终成果包含这些元信息,使用者们在使用这个翻译记忆库的时候可以清楚的看到某条翻译记忆来源于哪部剧的哪一集,既能增加我们的可信度也方便使用者去找上下文或做进一步的研究。要做到这一点,就需要1.阶段一中抓取字幕文件的同时也将网页中明文列出的字幕元信息以清晰的格式保存下来;2.阶段二中将这些元信息以明确对应的方式存入数据库;3.阶段三中将这些元信息提取出来并保存到对应的翻译记忆单元下。这个会额外增加我们的工作量,但我认为还是有价值的。