【技术实现步骤摘要】
本专利技术属于机器翻译,具体地说,是涉及一种基于历史文档词统计与词对齐方法的术语对提取方法、装置及介质。
技术介绍
1、术语提取在翻译行业里具有举足轻重的作用,当前的术语提取主要依据高频词,并通过词性进行提取,然后再进行人工筛选,其主要存在以下不足:(1)高频词不一定是术语,例如“问题”可能也是高频词,并且词性也是名词,但它几乎不可能是术语;(2)需要判断词性的额外步骤,容易引入新的误差。
技术实现思路
1、本专利技术的目的在于提供一种基于历史文档词统计与词对齐方法的术语对提取方法,以解决现有技术所存在的技术问题。
2、为了实现上述目的,本专利技术采取的技术方案如下:
3、一种基于历史文档词统计与词对齐方法的术语对提取方法,包括以下步骤:
4、(1)基于历史文档构建语料库c,语料库c={d1,d2,d3,.......,dn},其中,dm代表第m个历史文档,m=1,2,3,.......,n;
5、(2)将语料库c里的每个历史文档进行分词,并
...【技术保护点】
1.一种基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,所述阈值x的设定方法如下:首先,人工标注术语正确性;然后,基于所有,从小到大排序,并从小到大遍历所有,遍历时,统计大于当前分数的所有术语的正确率,如若正确率大于95%,则取该分数为阈值x。
3.根据权利要求2所述的基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,所述分词采用jieba中文分词或spacy多语分词。
4.一种计算机可读存储介质,其上存储有计算
...【技术特征摘要】
1.一种基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,所述阈值x的设定方法如下:首先,人工标注术语正确性;然后,基于所有,从小到大排序,并从小到大遍历所有,遍历时,统计大于当前分数的所有术语的正确率,如若正确率大于95%,则取该分数为阈值x。
3.根据权利要求2所述的基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,所述分词采用jieba中文分词或spacy多语分词。
【专利技术属性】
技术研发人员:朱宪超,吴阳剑,霍展羽,李晶,
申请(专利权)人:四川语言桥信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。