Atman 机器翻译在医药行业中的应用(强生案例分享)

来源: 医药魔方数据/iyiyaomofang

5 月 25 日的 2018 DIA 中国年会上,Atman主办了一场“医学语言智能”主题研讨会,来自杨森中国研发中心的医学写作与翻译中心经理欧阳龙湘女士在研讨会上做了演讲,演讲全文如下。



大家好,我是来自强生翻译中心的欧阳龙湘,感谢Atman邀请,跟大家一起分享强生对于机器翻译在医药公司,尤其是在药品注册领域的实践。我今天的分享会从几个方面进行:一是医药行业对翻译的需求,二是强生的应对策略,以及强生的机器翻译系统。

 

医药行业对于翻译的需求,一个是行业交流的需要,在中国加入ICH之后,很多的规则都要遵守,或者是说ICH很多理念要去靠近,所以有大量的翻译需求。



再一个是注册的刚性需求,因为翻译中心主要支持的是强生的药品注册,今年也有药监局法规出来,跟翻译相关的法规条文有这么几条,一是外文资料必须要提供中文译本,中文译本的内容跟外文资料不一致的以中文译文为准,很多国际化药企,因为源文件都是英文,所以大家从准确性考虑会加一个申明:中英文不一致的时候以英文为准,但是现在有明确的政策规定,中英文不一致,以中文为准,所以中文的质量要求大幅的提高。




另外是与临床相关的所有文件资料都要翻译成中文,而且对于申报的时间也给出了比较严格的规定,第一质量要求非常高,第二时间越来越紧,第三翻译量会相当的大。

 

翻译对于注册的支持在两个阶段,一个在CTA的时候,所有临床递交的方案,需要做翻译。第二个在NDA阶段新药申请的时候,临床,非临床以及CMC这三部分都要做翻译。




强生对于翻译递交必须要保证高质量高效率的翻译要求,所以我们的应对策略是什么?

我们组建强生内部的翻译中心,强生在13年的时候开始组建内部的翻译中心,经过几年的发展,从刚开始几个人的团队,到现在为止发展成了二三十人的内部团队去支持内部的递交,我们对于保密性没有那么强的资料,是以翻译中心为主,供应商为辅,因为量比较大。所有通过供应商翻译的文件全部要经过我们翻译中心内部审校,对质量的把控是一个硬性的要求。

 

机密的资料,比如CMC生产工艺等我们不会外包,内部团队处理这一部分,另外比较着急的重要的比如BB,跟CDE开会的,回复给HA的很多信,这些资料要求的很急,质量要求比较高,我们也会在内部处理。


 

质量要求非常高,效率也要求非常高,对于我们其实是一个矛盾。我们的人是有限的,从公司来讲不可能无限制的扩大一个翻译团队去支持递交,但同时我们又有质量跟效率的要求,所有注册部门都跟我们说“你快点的,我马上要交了,你的质量一定要保证,CMC这数字千万不能错,工艺千万不能错,错了我们递交就给打回来了”。怎么去解决这个问题,只能提高效率,这是我们唯一的出路。




我们想到的一个方法就是AI,对于翻译来说,就是机器翻译。


 

在16年的时候,对机器翻译的质量我们有过一个测试,随机找了一家大家都可以使用的翻译引擎,同时也找了google的翻译,因为google在翻译领域中还是一个非常高的强有力的标杆,我们做了一个测试,同一句英文:   

 

If you are able to have children and you aresexually active you must use birth control (contraception) during the study and for one month after the last dose of the study drug. 

 

我们当时用不同的翻译引擎去翻译,下面是测试结果,A是我们找的一个翻译引擎,下面这个是google的翻译引擎。



    May 2016

    Oct 2016



A

如果你是能有孩子,你是性活跃你必须使用节育(避孕),在研究期间和最后一个剂量研究药物后的一个月。

如果你是能有孩子,你是性活跃你必须使用节育(避孕),在研究期间和最后一个剂量研究药物后的一个月。



Google

如果你能有孩子,你是性活跃的,你必须研究药物的最后一次给药后在研究过程中和一个月使用节育(避孕)。

如果你能够有孩子,你是性活跃的,你必须在研究期间和研究药物的最后一剂后一个月使用节育(避孕)。

 

可以看到在2016年5月份的时候其实结果都不是特别好,逻辑就不是很通,作为一个读者不知道他想说什么。在2016年10月份的时候,同样这句话我们送到了翻译引擎A里面跑出来,结果仍然是不尽理想,逻辑顺序不符合中文的习惯。2016年10月这个节点google推出了基于神经网络的机器翻译,翻译结果逻辑很清楚,读者很明白是什么意思。基于测试结果我们觉得基于神经网络的机器翻译确实可以很大程度上提高翻译质量。


所以在那个时候我们也在寻求一个机器翻译引擎可以为强生定制化使用。为什么呢?因为机器翻译比如说google的量非常之大,适用于各个行业,它没有特别专注在某一个行业,就更不用说专注在哪家公司了,所以我们在想能不能有一个为强生定制的引擎。当时我们寻找了市场上一些合作伙伴,最后我们选择了跟Atman合作开发部署在强生的私有化机器翻译系统,这个机器翻译系统我们给起名叫J-SmarT。



对于这个机器翻译系统,最底层有一个基础算法,基础算法之上是一个语言模型,那么这两部分是Atman去开发,他们从公网上爬取大量的语料,同时我们也会提供一些网站信息,这些网站是在医药领域非常好的网站,他们会从这些网站爬取大量的语料去构建语言模型。之后,这个模型会部署在强生防火墙内的服务器上,因为大家知道国际化的企业对IT安全性都比较敏感,所以我们是必须要在防火墙内部署机器翻译系统。部署之后,我们用强生的语料,因为我们自己翻译中心也有4、5年的翻译经验,积累了大量比较高质量的语料,这些语料都是经过内部审校过的。用强生的语料对翻译引擎进行一个机器学习过程的训练,训练过之后就形成了我们J-SmarT,专注在强生使用的一个机器翻译系统。



这是我们大概的一个架构,通过三个服务器去支撑强生的机器翻译,强生机器翻译系统开放给强生所有的终端用户。当然我们目前还主要是中文和英文,因为我们翻译中心主要支持的是中国的递交,所以主要是中英文的语言对。



这个是Atman帮助开发的部署在强生的服务器上,只开放给强生用户的一个网站,类似于大家使用的google,它有两个功能,第一个就是可以跟使用google一样,输一句话输入一个词,它给你一个翻译结果。第二个就是文件翻译功能,因为有时候大家可能是有一个文档想去翻译,这里可以支持PPT、Word、Excel,pdf这些格式的文件翻译,对这些格式的文件可以直接把文件拽到翻译框里,点击翻译可以给出翻译的结果,这个结果可以下载下来存为相应格式的文档。

 

所以这个比较方便大家使用的是,比如说我就想知道这个文章大概什么意思,因为其实我可以判断,但是全文读英文我觉得有点麻烦。所以使用这个系统可以告诉你大概是个什么意思,或者是说帮助你去写作,比如我要写一个什么东西,很多术语可能未必那么清楚,有时候英文词怎么拼,中文字是怎么写,可以帮助你省去一些比较基础性,技术含量不那么高的工作。



另外一个主要是为我们翻译中心团队去建的,因为我们使用了trados翻译平台,我们自己团队做翻译的时候也想借助于这个机器翻译系统,所以Atman帮我们开发了一个插件,使得可以在这个平台上使用机器翻译,这样译员就可以做post editing,在机器翻译的结果上去做更改,提高翻译的效率,这就是机器翻译在强生内部我们使用的两个场景。



有了J-SmarT以后,我们的流程就有了更新或者说是优化,我们原来的流程是所有的都需要人工去翻译,然后再由一个高级译员人工审校后提交。现在我们的流程就是在trados运行之后,翻译第一步不需要人工,这个文章人工需要翻两三天的时候,机器几分钟就完成了,在这个基础上我们再做post editing,这个时候post editing如果是个高级译员,就不需要后面一步的审校,可以很大程度上缩短第一步的初译的时间,整体上的翻译时间是可以缩短的。



这是我们的测试结果,当时我们跟google上的翻译结果做了比较,我们把自己的语料拿去做机器翻译引擎训练之后,做了对比测试,从BLEU值,post-editing时间,人工测评阅读,多少人可以在线这些方面做评测,大家可以看到结果还是比较乐观的。

 

对于机器翻译来说,它翻译的质量非常依赖两部分,一部分是比较技术的那一部分,算法和模型,另外一部分是拿去做机器训练的语料,它的质量要好,量要大,所以这两方面对于提高翻译质量缺一不可。



现在机器翻译的一个优势是速度很快,术语很准确,短句的处理效果比较好,尤其是我们一些报告,句式相对简短,术语可能比较多,所以它的处理结果会比较好。

 

当然也有需要改进的,比如有些数字单位的准确性,因为我们的源文件格式会有不同,例如单位有空格没空格,大于等于号有的可能是个大于号加了一个横线,这种识别就会各不一样。术语一致性,因为存在一词多译,一个词可能在不同的研究报告里面翻译的结果不一样,怎么保证在这一篇文章中我采用的术语是准确的,也是需要改进的。长难句,我觉得这是所有机器翻译都需要去解决的一个长期的过程了。人机协作,因为译员去审校人工的翻译跟审校机器翻译会关注的点是不同的,现在我们也需要总结出来一套方法,就是怎么去审校机器翻译出来的东西。


最后,我们虽然使用机器翻译,但是机器翻译其实也是一个不断探索的过程,所以我们也会继续跟Atman合作,也会不断的对机器翻译,从算法,从语言模型,以及我们后来积累的语料上不断对J-SmarT做升级,我们的目标就是要减少人力投入,提高翻译质量,提高翻译效率,那我们的人释放出来做什么?我觉得人释放出来,是可以做更有价值的事情,人不必去对数字,不必须去核对术语,只是要审校就好,从而处理更大的量,人可以去思考怎样才能让翻译更快更有效,怎样才能让翻译的方式更好支持医学递交。

 

这就是我跟大家分享的内容,谢谢。



Atman 由来自微软的人工智能科学家创办,提供医学领域语言智能(机器翻译、机器写作、知识图谱、大数据)产品和解决方案,加速医学领域知识和信息传播,加速医药研发进程,改善人类生活水平。

 

Atman 已为多家世界领先药企提供服务。Atman 获评权威机构评选2017 、2018年 “人工智能创业 50 强企业” 称号。

 

Transgod 是 Atman 旗下机器翻译品牌,Transgod 可为用户在线定制机器翻译引擎,帮助用户低成本获得自动持续迭代升级的专属机器翻译引擎,保持长久的业务核心竞争力;还可为用户提供私有部署定制机器翻译引擎,私有部署基础引擎安装等服务。


Atman公司主页: atman.ai

Transgod 主页: transgod.cn

在线自助定制机器翻译引擎申请页: transgod.cn/train/apply


21世纪最重要的是什么?

请点击“阅读原文”了解详情