词汇检测方法、词汇检测系统及计算机可读存储介质技术方案

技术编号：21399338 阅读：26 留言：0更新日期：2019-06-19 07:05

本发明专利技术提出了一种词汇检测方法、词汇检测系统及计算机可读存储介质，其中，词汇检测方法包括：获取训练数据；将训练数据输入复合网络模型，以得到训练数据的上下文向量和相关度信息；根据上下文向量及相关度信息确定训练数据中的目标词汇；其中，复合网络模型由双向长短记忆网络及双向注意力网络组成。本发明专利技术提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络，选取双向注意力网络作为生成相关度的核心网络，获取“相关度”很高的新词，以保证对新词的准确发现，得到我们所需要的新词。

全部详细技术资料下载

【技术实现步骤摘要】
词汇检测方法、词汇检测系统及计算机可读存储介质
本专利技术涉及计算机
，具体而言，涉及一种词汇检测方法、一种词汇检测系统及一种计算机可读存储介质。
技术介绍
在文字信息处理的众多领域中，新词发现也就是发现新的单词。相关技术中，均是使用文本中字的特征，运用字向量特征向量的相似度发现出新词。这种新词发现有一个误区在于很难发现完全新的新词，发现的大多都是多一个字的词(比如词库里有头疼，发现新词头很痛)或者是错别字(阿莫西林和啊莫西林)。因为上述技术运用的是字向量模型，字向量仅考虑不同词汇中字与字的相关度，所以发现的词语与原词语基本相似，无法发现我们真正想要的“新词”，适应性不高。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此，本专利技术第一方面提出了一种词汇检测方法。本专利技术第二方面提出了一种词汇检测系统。本专利技术第三方面提出了一种计算机可读存储介质。本专利技术第一方面提出了一种词汇检测方法，包括：获取训练数据；将训练数据输入复合网络模型，以得到训练数据的上下文向量和相关度信息；根据上下文向量及相关度信息确定训练数据中的目标词汇；其中，复合网络模型由双向长短记忆网络及双向注意力网络组成。本专利技术第一方面提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络，选取双向注意力网络作为生成相关度的核心网络，在获取到训练数据后，将获取到的训练数据输入由双向长短记忆网络及双向注意力网络组成的复合网络模型中，通过该复合网络模型计算并输出训练数据的上下文向量和相关度信息，以通过训练数据的上下文向量和相关度信息确定训练数据中的目标词汇。具...

【技术保护点】
1.一种词汇检测方法，其特征在于，包括：获取训练数据；将所述训练数据输入复合网络模型，以得到所述训练数据的上下文向量和相关度信息；根据所述上下文向量及所述相关度信息确定所述训练数据中的目标词汇；其中，所述复合网络模型由双向长短记忆网络及双向注意力网络组成。

【技术特征摘要】
1.一种词汇检测方法，其特征在于，包括：获取训练数据；将所述训练数据输入复合网络模型，以得到所述训练数据的上下文向量和相关度信息；根据所述上下文向量及所述相关度信息确定所述训练数据中的目标词汇；其中，所述复合网络模型由双向长短记忆网络及双向注意力网络组成。2.根据权利要求1所述的词汇检测方法，其特征在于，将所述训练数据输入复合网络模型，以得到所述训练数据的上下文向量和相关度信息的步骤，具体包括：在对所述训练数据进行翻译的过程中，提取所述训练数据中的第一上下文信息；根据所述第一上下文信息确定所述训练数据的第一上下文向量和第一相关度信息。3.根据权利要求2所述的词汇检测方法，其特征在于，将所述训练数据输入复合网络模型，以得到所述训练数据的上下文向量和相关度信息的步骤，具体包括：在对所述训练数据与标注数据进行匹配的过程中，提取所述训练数据的第二上下文信息；根据所述第二上下文信息确定所述训练数据的目标向量；将所述目标向量与所述标注数据的标注向量进行比对，并记录比对结果；根据所述比对结果确定所述训练数据的第二上下文向量和所述训练数据的第二相关度信息。4.根据权利要求3所述的词汇检测方法，其特征在于，根据所述上下文向量及所述相关度信息确定所述训练数据中的目标词汇的步骤，具体包括：将所述第一上下文向量和所述第一相关度信息输入所述双向注意力网络，以得到第一计算结果；将所述第二上下文向量和所述第二相关度信息输入所述双向注意力网络，以得到第二计算结果；根据所述第一计算结果、所述第二计算结果确定所述训练数据中的目标词汇。5.根据权利要求1至4中任一项所述的词汇检测方法，其特征在于，获取训练数据的步骤，具体包括：获取语料数据；对所...

【专利技术属性】
技术研发人员：欧阳一村，程源泉，曾志辉，贺涛，
申请(专利权)人：深圳中兴网信科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人