一种基于正反向长短期记忆网络的文本异常词识别方法技术

技术编号:38473962 阅读:13 留言:0更新日期:2023-08-15 16:54
本发明专利技术涉及文本语意理解领域,尤其涉及一种基于正反向长短期记忆网络的文本异常词识别方法,所述方法包括:步骤1)采集待识别的文本;步骤2)对待识别的文本进行分词处理;步骤3)将每个词以及该词的上文词序列和下文词序列分别输入预先建立和训练好的识别模型,得到每个词是异常词的概率;步骤4)对每个异常词的概率和设定阈值进行比较,从而识别异常词。本发明专利技术能够充分利用词的上文和下文信息,不局限于文本的长度;并且直接从正常文本中通过采样的方式生成大量数据集,不需要对异常词进行人工标记,可在大量无监督数据上进行训练,具有普适性。普适性。普适性。

【技术实现步骤摘要】
一种基于正反向长短期记忆网络的文本异常词识别方法


[0001]本专利技术涉及文本语意理解领域,尤其涉及一种基于正反向长短期记忆网络的文本异常词识别方法。

技术介绍

[0002]互联网上网民发表的文本常常具有口语化、方言化、简写多、新词多等特点,同时还会伴随着大量输入错误、使用错误的词汇,如“要得(四川方言,表示“好的”的意思)”、“口耐(谐音“可爱”的意思)”。本专利技术中将这些在文本中并不表达其本身意义的词称为异常词。异常词的大量出现给文本语意的理解和分析带来巨大挑战,因此,识别文本中的异常词是网络文本语意理解的基础性工作,具有重要意义。通过识别文本中的异常词,可以对其进行特殊处理,找到其在文本中的真正词意,从而可以更加准确地理解和分析文本语意。
[0003]目前的文本语意理解领域关于文本异常词识别的相关工作较少,主要集中在语言模型相关的任务和方法上,包括传统的统计语言模型、近年来对神经语言模型和Word2Vec等。统计语言模型通过统计词的同现词频的方法预测一个词在文本上下文中出现的概率。这种方法对于语料库中未出现或出现少的词无法预测,并且没有考虑词的上下文特征和词的相似性,因此很难处理文本中的异常词。神经语言模型通过全连接神经网络或者循环神经网络在已知前几个词的条件下预测下一个词出现的概率。全连接神经网络往往具有长度限制,仅能在一个固定大小的窗口进行处理,无法利用文本的全部上下文信息;基于循环神经网络的方法只抓住了上文的信息,忽略了预测词下文的特征。Word2vec方法是针对词向量训练对全连接神经语言模型的简化,能够训练很好的词向量,但是由于其也是在一个窗口中处理,无法利用文本全局信息,并且舍弃了词的顺序,因此不适合于文本异常词识别。
[0004]因此,如何充分利用词在文本的上下文信息,准确地识别文本中出现的各种异常词,是正确理解文本语意的基础,是文本语意理解急需解决的问题。

技术实现思路

[0005]本专利技术的目的在于克服现有技术缺陷,提出了一种基于正反向长短期记忆网络的文本异常词识别方法。
[0006]为了实现上述目的,本专利技术提出了一种基于正反向长短期记忆网络的文本异常词识别方法,所述方法包括:
[0007]步骤1)采集待识别的文本;
[0008]步骤2)对待识别的文本进行分词处理;
[0009]步骤3)将每个词以及该词的上文词序列和下文词序列分别输入预先建立和训练好的识别模型,得到每个词是异常词的概率;
[0010]步骤4)对每个异常词的概率和设定阈值进行比较,从而识别异常词。
[0011]作为上述方法的一种改进,所述步骤2)具体包括:
[0012]对于待识别文本T=[w1,w2,...,w
i
,...,w
|T|
],共有|T|个词,分别进行分词处理,
得到每个词以及该词的上文词序列和下文词序列;其中,第i个词w
i
的上文词序列为[w1,w2,...,w
|i

1|
],下文词序列为[w
i+1
,w
i+2
,...,w
|T|
]。
[0013]作为上述方法的一种改进,所述识别模型包括依次连接的词向量层、长短期记忆网络层、特征组合层和判断层,所述长短期记忆网络层包括正向长短期记忆网络和反向长短期记忆网络。
[0014]作为上述方法的一种改进,所述步骤3)的识别模型处理过程具体包括:
[0015]所述词向量层通过word2vec模型将每个词全部映射为词向量,得到待识别文本的词向量[e1,e2,...,e
i
,...,e
|T|
],其中,e
i
为第i个词w
i
的词向量;
[0016]所述正向长短期记忆网络根据词w
i
的上文词序列对应的词向量提取词w
i
的上文特征反向长短期记忆网络根据词w
i
的下文词序列对应的词向量提取词w
i
的下文特征
[0017]所述特征组合层根据每个词的上文特征、该词的词向量和下文特征得到该词的特征v
i
为:
[0018][0019]所述判断层根据每个词的特征,通过下式计算得到该词是异常词的概率y
i
为:
[0020]y
i
=σ(w
T
v
i
+b)
[0021]其中,y
i
∈[0,1],w为权重参数向量,w
T
为w的转置,b为偏置参数。
[0022]作为上述方法的一种改进,所述步骤4)的阈值为0.5。
[0023]作为上述方法的一种改进,所述方法还包括识别模型的训练步骤;具体包括:
[0024]采用Wiki中文、北大中文《人民日报》数据集和/或搜狐新闻数据集,通过分词工具进行预处理得到分词后的文本,构成样本集;
[0025]对样本集中每一条文本的每一个位置,以该位置当前词作为正常词,从词表中随机选取一个其他词作为异常词,从而形成正负样本构成训练集;
[0026]将训练集中的数据依次输入识别模型,采用随机梯度下降算法进行模型参数的训练,直至满足训练要求,得到训练好的识别模型。
[0027]一种基于正反向长短期记忆网络的文本异常词识别系统,所述系统包括:识别模型、采集模块、分词处理模块、概率输出模块和异常词识别模块;其中,
[0028]所述采集模块,用于采集待识别的文本;
[0029]所述分词处理模块,用于对待识别的文本进行分词处理;
[0030]所述概率输出模块,用于将每个词以及该词的上文词序列和下文词序列分别输入预先建立和训练好的识别模型,得到每个词是异常词的概率;
[0031]所述异常词识别模块,用于对每个异常词的概率和设定阈值进行比较,从而识别异常词。
[0032]作为上述系统的一种改进,所述识别模型包括依次连接的词向量层、长短期记忆网络层、特征组合层和判断层,所述长短期记忆网络层包括正向长短期记忆网络和反向长短期记忆网络。
[0033]与现有技术相比,本专利技术的优势在于:
[0034]1、本专利技术能够充分利用词的上文和下文信息,不局限于文本的长度,因此可以更加准确地判断文本中的异常词;
[0035]2、本专利技术直接从正常文本中通过采样的方式生成大量数据集,不需要对异常词进行人工标记,可在大量无监督数据上进行训练,具有普适性。
附图说明
[0036]图1是本专利技术基于正反向长短期记忆网络的文本异常词识别方法的流程图;
[0037]图2是本专利技术的识别模型示意图。
具体实施方式
[0038]一种基于神经语言模型的文本异常词识别方法,包括以下步骤:
[0039]步骤1:准备文本数据集,包含无标记数据集和标记数据集;
...

【技术保护点】

【技术特征摘要】
1.一种基于正反向长短期记忆网络的文本异常词识别方法,所述方法包括:步骤1)采集待识别的文本;步骤2)对待识别的文本进行分词处理;步骤3)将每个词以及该词的上文词序列和下文词序列分别输入预先建立和训练好的识别模型,得到每个词是异常词的概率;步骤4)对每个异常词的概率和设定阈值进行比较,从而识别异常词。2.根据权利要求1所述的基于正反向长短期记忆网络的文本异常词识别方法,其特征在于,所述步骤2)具体包括:对于待识别文本T=[w1,w2,...,w
i
,...,w
|T|
],共有|T|个词,分别进行分词处理,得到每个词以及该词的上文词序列和下文词序列;其中,第i个词w
i
的上文词序列为[w1,w2,...,w
|i

1|
],下文词序列为[w
i+1
,w
i+2
,...,w
|T|
]。3.根据权利要求1所述的基于正反向长短期记忆网络的文本异常词识别方法,其特征在于,所述识别模型包括依次连接的词向量层、长短期记忆网络层、特征组合层和判断层,所述长短期记忆网络层包括正向长短期记忆网络和反向长短期记忆网络。4.根据权利要求3所述的基于正反向长短期记忆网络的文本异常词识别方法,其特征在于,所述步骤3)的识别模型处理过程具体包括:所述词向量层通过word2vec模型将每个词全部映射为词向量,得到待识别文本T的词向量[e1,e2,...,e
i
,...,e
|T|
],其中,e
i
为第i个词w
i
的词向量;所述正向长短期记忆网络根据词w
i
的上文词序列对应的词向量提取词w
i
的上文特征反向长短期记忆网络根据词w
i
的下文词序列对应的词向量提取词w
...

【专利技术属性】
技术研发人员:程佳军游宏梁赵瑞芳高强刘奇林
申请(专利权)人:中国人民解放军军事科学院军事科学信息研究中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1