词汇预测方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:20916563 阅读:17 留言:0更新日期:2019-04-20 09:41
本发明专利技术公开了一种词汇预测方法、装置、设备和计算机可读存储介质,一种词汇预测方法包括:获取多个连续时间节点的预测样本文本,分别对多个连续时间节点的预测样本文本进行分词处理,得到多个预测样本词汇序列,对多个预测样本词汇序列进行编码,得到多个预测样本词汇向量序列,依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型,将待预测文本输入词汇预测模型,得到词汇预测结果。本发明专利技术公开的词汇预测方法、装置设备和计算机可读存储介质,用于提高词汇预测的效率。

Vocabulary prediction methods, devices, devices and computer-readable storage media

The invention discloses a vocabulary prediction method, device, device and computer readable storage medium. A vocabulary prediction method includes acquiring prediction sample text of multiple continuous time nodes, segmenting prediction sample text of multiple continuous time nodes respectively, obtaining prediction sample vocabulary sequence, coding prediction sample vocabulary sequence, and obtaining prediction sample vocabulary sequence. The vocabulary prediction model is trained by using X continuous vocabulary vectors from the vocabulary vector sequence of the prediction sample of the previous time node as the prediction input, and the vocabulary in the vocabulary vector sequence of the prediction sample of the next time node as the target vocabulary. The vocabulary prediction model is obtained and the text to be predicted is input into the vocabulary prediction model. The vocabulary prediction results are obtained. The invention discloses a vocabulary prediction method, device and computer readable storage medium for improving the efficiency of vocabulary prediction.

【技术实现步骤摘要】
词汇预测方法、装置、设备和计算机可读存储介质
本专利技术实施例涉及计算机技术,尤其涉及一种词汇预测方法、装置、设备和计算机可读存储介质。背景
内词汇预测研究是在自然语言处理的一个新兴课题,词汇预测准确性的提高对文本聚类、语义消歧、语义Web、信息检索等众多应用领域具有重要意义。传统的词汇预测需要对词汇之间的相互映射关系进行研究,并对大量统计数据进行分析后才能得到预测结果。但这需要依靠人为统计和计算,不适用于当前大数据计算的场景。
技术实现思路
本专利技术提供一种词汇预测方法、装置、设备和计算机可读存储介质,以提高词汇预测的效率。第一方面,本专利技术实施例提供一种词汇预测方法,包括:获取多个连续时间节点的预测样本文本;分别对多个连续时间节点的预测样本文本进行分词处理,得到多个预测样本词汇序列;对多个预测样本词汇序列进行编码,得到多个预测样本词汇向量序列;依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型,词汇预测模型表示输入X个连续词汇向量后不同目标词汇的出现概率;将待预测文本输入词汇预测模型,得到词汇预测结果。在第一方面一种可能的实现方式中,分别对多个连续时间节点的预测样本文本进行分词处理,得到多个预测样本词汇序列,包括:分别对多个连续时间节点的预测样本文本进行分词处理,并去除分词处理后的停用词,得到多个预测样本词汇序列。在第一方面一种可能的实现方式中,依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型,包括:依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,在后一个时间节点的预测样本词汇向量序列中以X个连续词汇向量作为训练窗口,滑动训练窗口,对词汇训练模型进行训练,得到词汇预测模型。在第一方面一种可能的实现方式中,依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型之后,方法还包括:优化词汇预测模型,以使词汇预测模型的输出平均概率最高。在第一方面一种可能的实现方式中,对多个预测样本词汇序列进行编码,得到多个预测样本词汇向量序列,包括:利用one-hot编码方式对多个预测样本词汇序列进行编码,得到多个预测样本词汇编码数据;将多个预测样本词汇编码数据分别与预设非稀疏矩阵相乘,得到得到多个预测样本词汇向量序列。第二方面,本专利技术实施例还提供了一种词汇预测装置,包括:文本获取模块,用于获取多个连续时间节点的预测样本文本;词汇获取模块,用于分别对多个连续时间节点的预测样本文本进行分词处理,得到多个预测样本词汇序列;词汇处理模块,用于对多个预测样本词汇序列进行编码,得到多个预测样本词汇向量序列;模型训练模块,用于依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型,词汇预测模型表示输入X个连续词汇向量后不同目标词汇的出现概率;词汇预测模块,用于将待预测文本输入词汇预测模型,得到词汇预测结果。在第二方面一种可能的实现方式中,词汇获取模块,具体用于分别对多个连续时间节点的预测样本文本进行分词处理,并去除分词处理后的停用词,得到多个预测样本词汇序列。在第二方面一种可能的实现方式中,模型训练模块,具体用于依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,在后一个时间节点的预测样本词汇向量序列中以X个连续词汇向量作为训练窗口,滑动训练窗口,对词汇训练模型进行训练,得到词汇预测模型。第三方面,本专利技术实施例还提供了一种词汇预测设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面任一种可能的实现方式所述的词汇预测方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面任一种可能的实现方式所述的词汇预测方法。本专利技术实施例提供的词汇预测方法、装置、设备和计算机可读存储介质,通过获取多个连续时间节点的预测样本文本,分别对多个连续时间节点的预测样本文本进行分词处理,得到多个预测样本词汇序列,对多个预测样本词汇序列进行编码,得到多个预测样本词汇向量序列,依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型,词汇预测模型表示输入X个连续词汇向量后不同目标词汇的出现概率,将待预测文本输入词汇预测模型,得到词汇预测结,实现了词汇预测的自动处理,避免采用人力的方式进行词汇预测的处理,适用于大数据平台中数据的处理。附图说明图1为本专利技术实施例提供的词汇预测方法实施例一的流程图;图2为本专利技术实施例提供的词汇预测装置实施例一的结构示意图;图3为本专利技术实施例提供的词汇预测设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。图1为本专利技术实施例提供的词汇预测方法实施例一的流程图,如图1所示,本实施例提供的词汇预测方法包括:步骤S101,获取多个连续时间节点的预测样本文本。为了解决现有技术中,对词汇预测的处理仅能依靠人力实现所带来的问题,本实施例提供一种词汇预测方法,通过将文本中的词汇进行编码后得到词汇的特征向量,然后根据词汇的特征向量训练词汇预测模型,从而实现对词汇的自动预测,从而避免人工处理,而是可以由计算机实现自动的词汇预测处理。本实施例提供的词汇预测方法可以应用于任一种具有处理能力的计算机、服务器或其他硬件设备。特别的,由于在大数据平台中,具有大量文本处理需求,为了提高大数据平台的处理效率,本实施例提供的词汇预测方法可以应用于大数据平台,由大数据平台中的一台或多台大数据服务器执行。首先,对词汇进行自动预测的重点在于训练准确的词汇预测模型,本实施例所提供的词汇预测方法的关键在于如何训练出能够准确进行词汇预测的模型。而对词汇预测模型的训练,首先需要具有训练样本。由于对词汇的预测实际上是根据前一个时间节点的文本中所出现的词汇去预测下一个时间点的文本中可能出现的词汇的过程,因此,对词汇预测模型进行训练的训练样本需要是多个连续时间节点的语塞样本文本。这里的多个连续时间节点的间隔可以根据实际需求设定,例如每天、每小时等。另外,由于对词汇的预测并不是能够随意进行的,例如使用一篇生物领域的文本显然无法预测另一篇数学领域文本中词汇出现的概率,因此,词本文档来自技高网...

【技术保护点】
1.一种词汇预测方法,其特征在于,包括:获取多个连续时间节点的预测样本文本;分别对所述多个连续时间节点的预测样本文本进行分词处理,得到多个预测样本词汇序列;对所述多个预测样本词汇序列进行编码,得到多个预测样本词汇向量序列;依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型,所述词汇预测模型表示输入X个连续词汇向量后不同目标词汇的出现概率;将待预测文本输入所述词汇预测模型,得到词汇预测结果。

【技术特征摘要】
1.一种词汇预测方法,其特征在于,包括:获取多个连续时间节点的预测样本文本;分别对所述多个连续时间节点的预测样本文本进行分词处理,得到多个预测样本词汇序列;对所述多个预测样本词汇序列进行编码,得到多个预测样本词汇向量序列;依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型,所述词汇预测模型表示输入X个连续词汇向量后不同目标词汇的出现概率;将待预测文本输入所述词汇预测模型,得到词汇预测结果。2.根据权利要求1所述的方法,其特征在于,所述分别对所述多个连续时间节点的预测样本文本进行分词处理,得到多个预测样本词汇序列,包括:分别对所述多个连续时间节点的预测样本文本进行分词处理,并去除分词处理后的停用词,得到多个预测样本词汇序列。3.根据权利要求1或2所述的方法,其特征在于,所述依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型,包括:依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,在所述后一个时间节点的预测样本词汇向量序列中以X个连续词汇向量作为训练窗口,滑动所述训练窗口,对词汇训练模型进行训练,得到词汇预测模型。4.根据权利要求1或2所述的方法,其特征在于,所述依次以前一个时间节点的预测样本词汇向量序列中的X个连续词汇向量作为预测输入,以后一个时间节点的预测样本词汇向量序列中的词汇作为目标词汇,对词汇预测模型进行训练,得到词汇预测模型之后,所述方法还包括:优化所述词汇预测模型,以使所述词汇预测模型的输出平均概率最高。5.根据权利要求1或2所述的方法,其特征在于,所述对所述多个预测样本词汇序列进行编码,得到多个预测...

【专利技术属性】
技术研发人员:万月亮李强火一莽
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1