词汇预测方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号：20916563 阅读：17 留言：0更新日期：2019-04-20 09:41

本发明专利技术公开了一种词汇预测方法、装置、设备和计算机可读存储介质，一种词汇预测方法包括：获取多个连续时间节点的预测样本文本，分别对多个连续时间节点的预测样本文本进行分词处理，得到多个预测样本词汇序列，对多个预测样本词汇序列进行编码，得到多个预测样本词汇向量序列，依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入，以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇，对词汇预测模型进行训练，得到词汇预测模型，将待预测文本输入词汇预测模型，得到词汇预测结果。本发明专利技术公开的词汇预测方法、装置设备和计算机可读存储介质，用于提高词汇预测的效率。

Vocabulary prediction methods, devices, devices and computer-readable storage media

The invention discloses a vocabulary prediction method, device, device and computer readable storage medium. A vocabulary prediction method includes acquiring prediction sample text of multiple continuous time nodes, segmenting prediction sample text of multiple continuous time nodes respectively, obtaining prediction sample vocabulary sequence, coding prediction sample vocabulary sequence, and obtaining prediction sample vocabulary sequence. The vocabulary prediction model is trained by using X continuous vocabulary vectors from the vocabulary vector sequence of the prediction sample of the previous time node as the prediction input, and the vocabulary in the vocabulary vector sequence of the prediction sample of the next time node as the target vocabulary. The vocabulary prediction model is obtained and the text to be predicted is input into the vocabulary prediction model. The vocabulary prediction results are obtained. The invention discloses a vocabulary prediction method, device and computer readable storage medium for improving the efficiency of vocabulary prediction.

全部详细技术资料下载

【技术实现步骤摘要】
词汇预测方法、装置、设备和计算机可读存储介质
本专利技术实施例涉及计算机技术，尤其涉及一种词汇预测方法、装置、设备和计算机可读存储介质。背景
内词汇预测研究是在自然语言处理的一个新兴课题，词汇预测准确性的提高对文本聚类、语义消歧、语义Web、信息检索等众多应用领域具有重要意义。传统的词汇预测需要对词汇之间的相互映射关系进行研究，并对大量统计数据进行分析后才能得到预测结果。但这需要依靠人为统计和计算，不适用于当前大数据计算的场景。
技术实现思路
本专利技术提供一种词汇预测方法、装置、设备和计算机可读存储介质，以提高词汇预测的效率。第一方面，本专利技术实施例提供一种词汇预测方法，包括：获取多个连续时间节点的预测样本文本；分别对多个连续时间节点的预测样本文本进行分词处理，得到多个预测样本词汇序列；对多个预测样本词汇序列进行编码，得到多个预测样本词汇向量序列；依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入，以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇，对词汇预测模型进行训练，得到词汇预测模型，词汇预测模型表示输入X个连续词汇向量后不同目标词汇的出现概率；将待预测文本输入词汇预测模型，得到词汇预测结果。在第一方面一种可能的实现方式中，分别对多个连续时间节点的预测样本文本进行分词处理，得到多个预测样本词汇序列，包括：分别对多个连续时间节点的预测样本文本进行分词处理，并去除分词处理后的停用词，得到多个预测样本词汇序列。在第一方面一种可能的实现方式中，依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入...

【技术保护点】
1.一种词汇预测方法，其特征在于，包括：获取多个连续时间节点的预测样本文本；分别对所述多个连续时间节点的预测样本文本进行分词处理，得到多个预测样本词汇序列；对所述多个预测样本词汇序列进行编码，得到多个预测样本词汇向量序列；依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入，以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇，对词汇预测模型进行训练，得到词汇预测模型，所述词汇预测模型表示输入X个连续词汇向量后不同目标词汇的出现概率；将待预测文本输入所述词汇预测模型，得到词汇预测结果。

【技术特征摘要】
1.一种词汇预测方法，其特征在于，包括：获取多个连续时间节点的预测样本文本；分别对所述多个连续时间节点的预测样本文本进行分词处理，得到多个预测样本词汇序列；对所述多个预测样本词汇序列进行编码，得到多个预测样本词汇向量序列；依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入，以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇，对词汇预测模型进行训练，得到词汇预测模型，所述词汇预测模型表示输入X个连续词汇向量后不同目标词汇的出现概率；将待预测文本输入所述词汇预测模型，得到词汇预测结果。2.根据权利要求1所述的方法，其特征在于，所述分别对所述多个连续时间节点的预测样本文本进行分词处理，得到多个预测样本词汇序列，包括：分别对所述多个连续时间节点的预测样本文本进行分词处理，并去除分词处理后的停用词，得到多个预测样本词汇序列。3.根据权利要求1或2所述的方法，其特征在于，所述依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入，以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇，对词汇预测模型进行训练，得到词汇预测模型，包括：依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入，以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇，在所述后一个时间节点的预测样本词汇向量序列中以X个连续词汇向量作为训练窗口，滑动所述训练窗口，对词汇训练模型进行训练，得到词汇预测模型。4.根据权利要求1或2所述的方法，其特征在于，所述依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入，以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇，对词汇预测模型进行训练，得到词汇预测模型之后，所述方法还包括：优化所述词汇预测模型，以使所述词汇预测模型的输出平均概率最高。5.根据权利要求1或2所述的方法，其特征在于，所述对所述多个预测样本词汇序列进行编码，得到多个预测...

【专利技术属性】
技术研发人员：万月亮，李强，火一莽，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人