当前位置: 首页 > 专利查询>中国人民解放军军事科学院军事科学信息研究中心专利>正文

一种基于正反向长短期记忆网络的文本异常词识别方法技术

技术编号：38473962 阅读：13 留言：0更新日期：2023-08-15 16:54

本发明专利技术涉及文本语意理解领域，尤其涉及一种基于正反向长短期记忆网络的文本异常词识别方法，所述方法包括：步骤1)采集待识别的文本；步骤2)对待识别的文本进行分词处理；步骤3)将每个词以及该词的上文词序列和下文词序列分别输入预先建立和训练好的识别模型，得到每个词是异常词的概率；步骤4)对每个异常词的概率和设定阈值进行比较，从而识别异常词。本发明专利技术能够充分利用词的上文和下文信息，不局限于文本的长度；并且直接从正常文本中通过采样的方式生成大量数据集，不需要对异常词进行人工标记，可在大量无监督数据上进行训练，具有普适性。普适性。普适性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于正反向长短期记忆网络的文本异常词识别方法

[0001]本专利技术涉及文本语意理解领域，尤其涉及一种基于正反向长短期记忆网络的文本异常词识别方法。

技术介绍

[0002]互联网上网民发表的文本常常具有口语化、方言化、简写多、新词多等特点，同时还会伴随着大量输入错误、使用错误的词汇，如“要得(四川方言，表示“好的”的意思)”、“口耐(谐音“可爱”的意思)”。本专利技术中将这些在文本中并不表达其本身意义的词称为异常词。异常词的大量出现给文本语意的理解和分析带来巨大挑战，因此，识别文本中的异常词是网络文本语意理解的基础性工作，具有重要意义。通过识别文本中的异常词，可以对其进行特殊处理，找到其在文本中的真正词意，从而可以更加准确地理解和分析文本语意。
[0003]目前的文本语意理解领域关于文本异常词识别的相关工作较少，主要集中在语言模型相关的任务和方法上，包括传统的统计语言模型、近年来对神经语言模型和Word2Vec等。统计语言模型通过统计词的同现词频的方法预测一个词在文本上下文中出现的概率。这种方法对于语料库中未出现或出现少的词无法预测，并且没有考虑词的上下文特征和词的相似性，因此很难处理文本中的异常词。神经语言模型通过全连接神经网络或者循环神经网络在已知前几个词的条件下预测下一个词出现的概率。全连接神经网络往往具有长度限制，仅能在一个固定大小的窗口进行处理，无法利用文本的全部上下文信息；基于循环神经网络的方法只抓住了上文的信息，忽略了预测词下文的特征。Word2vec方法是针对词向量训练对全连接神经语言模型

【技术保护点】

【技术特征摘要】
1.一种基于正反向长短期记忆网络的文本异常词识别方法，所述方法包括：步骤1)采集待识别的文本；步骤2)对待识别的文本进行分词处理；步骤3)将每个词以及该词的上文词序列和下文词序列分别输入预先建立和训练好的识别模型，得到每个词是异常词的概率；步骤4)对每个异常词的概率和设定阈值进行比较，从而识别异常词。2.根据权利要求1所述的基于正反向长短期记忆网络的文本异常词识别方法，其特征在于，所述步骤2)具体包括：对于待识别文本T＝[w1,w2,...,w
i
,...,w
|T|
]，共有|T|个词，分别进行分词处理，得到每个词以及该词的上文词序列和下文词序列；其中，第i个词w
i
的上文词序列为[w1,w2,...,w
|i
‑
1|
]，下文词序列为[w
i+1
,w
i+2
,...,w
|T|
]。3.根据权利要求1所述的基于正反向长短期记忆网络的文本异常词识别方法，其特征在于，所述识别模型包括依次连接的词向量层、长短期记忆网络层、特征组合层和判断层，所述长短期记忆网络层包括正向长短期记忆网络和反向长短期记忆网络。4.根据权利要求3所述的基于正反向长短期记忆网络的文本异常词识别方法，其特征在于，所述步骤3)的识别模型处理过程具体包括：所述词向量层通过word2vec模型将每个词全部映射为词向量，得到待识别文本T的词向量[e1,e2,...,e
i
,...,e
|T|
]，其中，e
i
为第i个词w
i
的词向量；所述正向长短期记忆网络根据词w
i
的上文词序列对应的词向量提取词w
i
的上文特征反向长短期记忆网络根据词w
i
的下文词序列对应的词向量提取词w
...

【专利技术属性】
技术研发人员：程佳军，游宏梁，赵瑞芳，高强，刘奇林，
申请(专利权)人：中国人民解放军军事科学院军事科学信息研究中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人