词汇检测方法、词汇检测系统及计算机可读存储介质技术方案

技术编号:21399338 阅读:26 留言:0更新日期:2019-06-19 07:05
本发明专利技术提出了一种词汇检测方法、词汇检测系统及计算机可读存储介质,其中,词汇检测方法包括:获取训练数据;将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息;根据上下文向量及相关度信息确定训练数据中的目标词汇;其中,复合网络模型由双向长短记忆网络及双向注意力网络组成。本发明专利技术提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,获取“相关度”很高的新词,以保证对新词的准确发现,得到我们所需要的新词。

【技术实现步骤摘要】
词汇检测方法、词汇检测系统及计算机可读存储介质
本专利技术涉及计算机
,具体而言,涉及一种词汇检测方法、一种词汇检测系统及一种计算机可读存储介质。
技术介绍
在文字信息处理的众多领域中,新词发现也就是发现新的单词。相关技术中,均是使用文本中字的特征,运用字向量特征向量的相似度发现出新词。这种新词发现有一个误区在于很难发现完全新的新词,发现的大多都是多一个字的词(比如词库里有头疼,发现新词头很痛)或者是错别字(阿莫西林和啊莫西林)。因为上述技术运用的是字向量模型,字向量仅考虑不同词汇中字与字的相关度,所以发现的词语与原词语基本相似,无法发现我们真正想要的“新词”,适应性不高。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术第一方面提出了一种词汇检测方法。本专利技术第二方面提出了一种词汇检测系统。本专利技术第三方面提出了一种计算机可读存储介质。本专利技术第一方面提出了一种词汇检测方法,包括:获取训练数据;将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息;根据上下文向量及相关度信息确定训练数据中的目标词汇;其中,复合网络模型由双向长短记忆网络及双向注意力网络组成。本专利技术第一方面提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,在获取到训练数据后,将获取到的训练数据输入由双向长短记忆网络及双向注意力网络组成的复合网络模型中,通过该复合网络模型计算并输出训练数据的上下文向量和相关度信息,以通过训练数据的上下文向量和相关度信息确定训练数据中的目标词汇。具体地,是通过训练数据的上下文向量和相关度信息发现新词。本专利技术第一方面提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,获取“相关度”很高的新词。具体地,“相关度”指的是在不同的上下文环境中可以互相替代,如果是可以互相替代是新词,则表示两者相关度很高。例如,“今天我感觉手痛”和“今天我感觉肩膀疼”这两句话,在这其中“手痛”和“肩膀疼”字向量的相似度很低,但是在这两句话中所表达的意思却差不多,所以“手痛”和“肩膀疼”相关度就很高了。本专利技术正是基于相关度来发现一句话中的新词,以保证对新词的准确发现,得到我们所需要的新词。根据本专利技术上述的词汇检测方法,还可以具有以下附加技术特征:在上述技术方案中,优选地,将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息的步骤,具体包括:在对训练数据进行翻译的过程中,提取训练数据中的第一上下文信息;根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息。在该技术方案中,将训练数据输入到复合网络模型后,然后对其进行中文及英文翻译。具体地,无论输入的是英文语句还是中文语句,都对其进行翻译,以得到相对应的英文语句及中文语句;在翻译的过程中,对训练数据的上下文信息进行提取,得到第一上下文信息;然后根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息。在上述任一技术方案中,优选地,将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息的步骤,具体包括:在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息;根据第二上下文信息确定训练数据的目标向量;将目标向量与标注数据的标注向量进行比对,并记录比对结果;根据比对结果确定第二上下文向量和第二相关度信息。在该技术方案中,在获取的训练数据的上下文向量及相关度信息后,综合考虑在机器翻译过程中获取的第一上下文向量和第一相关度信息,及在句子匹配过程中获取的第二上下文向量和第二相关度信息,以根据上述上下文向量和相关度信息确定目标词汇,即训练数据中的新词。具体地,在根据第一计算结果、第二计算结果确定训练数据中的目标词汇之前,可以对第一计算结果及第二计算结果进行分析,对相关度较高的词汇加以标记,进行“高亮”处理,在注意力矩阵中增加权重,使得两句话中相关的词汇获得更多的关注,训练效果好。最后通过双向注意力网络输出两个相关的词汇,一个为词库中已有词汇,另一词为我们想要发现的新词。在上述任一技术方案中,优选地,获取训练数据的步骤,具体包括:获取语料数据;对语料数据进行预处理,以得到训练数据。在该技术方案中,首先选取机器翻译语义相似度数据,然后对不同语言的语料数据做一一匹配,去掉乱码,杂乱无章项,清洗掉不需要的语料数据,并整理标签正确性。对同一语言相关度训练数据做句子(段落)匹配,得到需要的训练数据。本专利技术第二方面提出了一种词汇检测系统,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序以:获取训练数据;将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息;根据上下文向量及相关度信息确定训练数据中的目标词汇;其中,复合网络模型由双向长短记忆网络及双向注意力网络组成。本专利技术第二方面提出的词汇检测系统包括相互配合的存储器和处理器,其处存储器上存储有存储计算机程序,处理器用于执行该计算机程序,以选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,在获取到训练数据后,将获取到的训练数据输入由双向长短记忆网络及双向注意力网络组成的复合网络模型中,通过该复合网络模型计算并输出训练数据的上下文向量和相关度信息,以通过训练数据的上下文向量和相关度信息确定训练数据中的目标词汇。具体地,是通过训练数据的上下文向量和相关度信息发现新词。本专利技术第二方面提出的词汇检测系统选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,获取“相关度”很高的新词。具体地,“相关度”指的是在不同的上下文环境中可以互相替代,如果是可以互相替代是新词,则表示两者相关度很高。例如,“今天我感觉手痛”和“今天我感觉肩膀疼”这两句话,在这其中“手痛”和“肩膀疼”字向量的相似度很低,但是在这两句话中所表达的意思却差不多,所以“手痛”和“肩膀疼”相关度就很高了。本专利技术正是基于相关度来发现一句话中的新词,以保证对新词的准确发现,得到我们所需要的新词。根据本专利技术上述的词汇检测系统,还可以具有以下附加技术特征:在上述技术方案中,优选地,处理器具体用于:在对训练数据进行翻译的过程中,提取训练数据中的第一上下文信息;根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息;在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息;根据第二上下文信息确定训练数据的目标向量;将目标向量与标注数据的标注向量进行比对,并记录比对结果;根据比对结果确定第二上下文向量和第二相关度信息。在该技术方案中,处理器将训练数据输入到复合网络模型后,然后对其进行中文及英文翻译。具体地,无论输入的是英文语句还是中文语句,都对其进行翻译,以得到相对应的英文语句及中文语句;在翻译的过程中,对训练数据的上下文信息进行提取,得到第一上下文信息;然后根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息;同时,将训练数据输入到复合网络模型后,对训练数据进行匹配;在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息,具体地,是提取中文语句的上下文信息,以根据第二上下文信息确定训练本文档来自技高网...

【技术保护点】
1.一种词汇检测方法,其特征在于,包括:获取训练数据;将所述训练数据输入复合网络模型,以得到所述训练数据的上下文向量和相关度信息;根据所述上下文向量及所述相关度信息确定所述训练数据中的目标词汇;其中,所述复合网络模型由双向长短记忆网络及双向注意力网络组成。

【技术特征摘要】
1.一种词汇检测方法,其特征在于,包括:获取训练数据;将所述训练数据输入复合网络模型,以得到所述训练数据的上下文向量和相关度信息;根据所述上下文向量及所述相关度信息确定所述训练数据中的目标词汇;其中,所述复合网络模型由双向长短记忆网络及双向注意力网络组成。2.根据权利要求1所述的词汇检测方法,其特征在于,将所述训练数据输入复合网络模型,以得到所述训练数据的上下文向量和相关度信息的步骤,具体包括:在对所述训练数据进行翻译的过程中,提取所述训练数据中的第一上下文信息;根据所述第一上下文信息确定所述训练数据的第一上下文向量和第一相关度信息。3.根据权利要求2所述的词汇检测方法,其特征在于,将所述训练数据输入复合网络模型,以得到所述训练数据的上下文向量和相关度信息的步骤,具体包括:在对所述训练数据与标注数据进行匹配的过程中,提取所述训练数据的第二上下文信息;根据所述第二上下文信息确定所述训练数据的目标向量;将所述目标向量与所述标注数据的标注向量进行比对,并记录比对结果;根据所述比对结果确定所述训练数据的第二上下文向量和所述训练数据的第二相关度信息。4.根据权利要求3所述的词汇检测方法,其特征在于,根据所述上下文向量及所述相关度信息确定所述训练数据中的目标词汇的步骤,具体包括:将所述第一上下文向量和所述第一相关度信息输入所述双向注意力网络,以得到第一计算结果;将所述第二上下文向量和所述第二相关度信息输入所述双向注意力网络,以得到第二计算结果;根据所述第一计算结果、所述第二计算结果确定所述训练数据中的目标词汇。5.根据权利要求1至4中任一项所述的词汇检测方法,其特征在于,获取训练数据的步骤,具体包括:获取语料数据;对所...

【专利技术属性】
技术研发人员:欧阳一村程源泉曾志辉贺涛
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1