一种基于历史文档词统计与词对齐方法的术语对提取方法、装置及介质制造方法及图纸

技术编号:43370901 阅读:15 留言:0更新日期:2024-11-19 17:51
本发明专利技术属于机器翻译技术领域,提供了一种基于历史文档词统计与词对齐方法的术语对提取方法、装置及介质,其中方法包括:(1)基于历史文档构建语料库;(2)每个历史文档进行分词;(3)输入文档进行分词;(4)遍历集合中的所有词;(5)得到术语集合。本发明专利技术通过历史文档作为判断依据,可以解决某些高频词并非为术语,但被识别为术语的问题,且不需要引入词性判断步骤,减少了判断误差。

【技术实现步骤摘要】

本专利技术属于机器翻译,具体地说,是涉及一种基于历史文档词统计与词对齐方法的术语对提取方法、装置及介质


技术介绍

1、术语提取在翻译行业里具有举足轻重的作用,当前的术语提取主要依据高频词,并通过词性进行提取,然后再进行人工筛选,其主要存在以下不足:(1)高频词不一定是术语,例如“问题”可能也是高频词,并且词性也是名词,但它几乎不可能是术语;(2)需要判断词性的额外步骤,容易引入新的误差。


技术实现思路

1、本专利技术的目的在于提供一种基于历史文档词统计与词对齐方法的术语对提取方法,以解决现有技术所存在的技术问题。

2、为了实现上述目的,本专利技术采取的技术方案如下:

3、一种基于历史文档词统计与词对齐方法的术语对提取方法,包括以下步骤:

4、(1)基于历史文档构建语料库c,语料库c={d1,d2,d3,.......,dn},其中,dm代表第m个历史文档,m=1,2,3,.......,n;

5、(2)将语料库c里的每个历史文档进行分词,并将所有词进行去重,得本文档来自技高网...

【技术保护点】

1.一种基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,所述阈值x的设定方法如下:首先,人工标注术语正确性;然后,基于所有,从小到大排序,并从小到大遍历所有,遍历时,统计大于当前分数的所有术语的正确率,如若正确率大于95%,则取该分数为阈值x。

3.根据权利要求2所述的基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,所述分词采用jieba中文分词或spacy多语分词。

4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,...

【技术特征摘要】

1.一种基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,所述阈值x的设定方法如下:首先,人工标注术语正确性;然后,基于所有,从小到大排序,并从小到大遍历所有,遍历时,统计大于当前分数的所有术语的正确率,如若正确率大于95%,则取该分数为阈值x。

3.根据权利要求2所述的基于历史文档词统计与词对齐方法的术语对提取方法,其特征在于,所述分词采用jieba中文分词或spacy多语分词。

【专利技术属性】
技术研发人员:朱宪超吴阳剑霍展羽李晶
申请(专利权)人:四川语言桥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1