基于专利数据的语料生成方法及装置制造方法及图纸

技术编号:31078552 阅读:40 留言:0更新日期:2021-12-01 11:34
本发明专利技术公开了一种基于专利数据的语料生成方法及装置,涉及自然语言处理技术领域,本发明专利技术的主要目的在于利用不同语言专利数据生成专利语料,以便应用于更具通用性的机器翻译系统。本发明专利技术主要的技术方案为:获取使用不同语言描述的多份专利文件;在所述多份专利文件中获得具有对应关系的专利文件对;在所述具有对应关系的专利文件对中,提取具有对应关系的语句对,作为翻译的训练语料。作为翻译的训练语料。作为翻译的训练语料。

【技术实现步骤摘要】
基于专利数据的语料生成方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于专利数据的语料生成方法及装置。

技术介绍

[0002]机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。而随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。机器翻译系统可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。其中,基于语料库的机器翻译系统是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。可见,基于语料库的机器翻译系统就需要大量的语料。
[0003]而在实际应用中,在不同的翻译场景中,相同的自然语言表述会具有不同的翻译结果,因此,对于机器翻译系统就需要针对不同应用场景或领域中的语料。目前,已有的一些语料生成方法都是具有较强的领域属性,比如基于网页的语料生产方案、基于字幕的语料生产方案、基于小说的语料生产方案等等。这些技术方案适用于特定的场景和数据要求,比如基于网页内容和网页结构的网页本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于专利数据的语料生成方法,所述方法包括:获取使用不同语言描述的多份专利文件;在所述多份专利文件中获得具有对应关系的专利文件对;在所述具有对应关系的专利文件对中,提取具有对应关系的语句对,作为翻译的训练语料。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述多份专利文件进行预处理,提取所述多份专利文件中的文本信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据预设规则,对提取到的所述多份专利文件中的文本信息进行清洗。4.根据权利要求3所述的方法,其特征在于,所述清洗包括以下操作的至少一项:去除多余空格,tab转空格,不可见字符转空格,全角字符转半角,去除段首编号。5.根据权利要求2-4中任一项所述的方法,其特征在于,所述提取所述多份专利文件中的文本信息之后,所述方法包括:在所述文本信息中抽取关键信息,所述关键信息包括以下信息的至少一项:申请国家信息、发明人信息、优先权信息、专利申请号。6.根据权利要求5所述的方法,其特征在于,所述在所述多份专利文件中获得具有对应关系的专利文件对,包括:对所述文本信息进行分词;利用预设词典以及预设语言种类对所述词粒度的文本信息进行翻译;利用倒排索引统计翻译后的文本信息中具有对应关系的专利文件对,其中所述对应关系是指所述专利文本的内容近似且语言种类不同。7.根据权利要求6所述的方法,其特征在于,所述利用倒排索引统计翻译后的文本信息中具有对应关系的专利文件对包括:利用倒排索引统计所述文本信息中的分词,得到候选专利文件对;根据预设的分词组合数量统计所述候选专利文件对的第一相似度值;对比所述候选专利文件对中的发明人信息,得到第二相似度值;根据所述候选专利文件对中的优先权信息、申请号确定第三相似度值;利用第一相似度值、第二相似度值以及第三相似度值判断所述候选专利文本是否为具有对应关...

【专利技术属性】
技术研发人员:葛鑫施杨斌赵宇骆卫华
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1