一种基于神经语言模型的文本异常词识别方法及系统技术方案

技术编号:38473960 阅读:11 留言:0更新日期:2023-08-15 16:54
本发明专利技术涉及文本语意理解领域,尤其涉及一种基于神经语言模型的文本异常词识别方法及系统,用于识别网络用语、新词和错别词,所述方法包括:步骤1)采集待识别的文本;步骤2)对待识别的文本采用滑窗的方式确定每个词的上下文词序列;步骤3)将每个词的上下文词序列分别输入预先建立和训练好的识别模型,得到每个词在该上下文词序列下出现的概率;步骤4)对每个词出现的概率和设定的阈值进行比较,判断该词是否为异常词。本发明专利技术不需要对异常词进行标记,可在大量无监督数据上进行训练;通过使用大量正负样本预测概率统计的方式确定的异常词和正常词的预测概率阈值具有普适性;使用负采样的方式进行负样本的选择,使训练速度加快。快。快。

【技术实现步骤摘要】
一种基于神经语言模型的文本异常词识别方法及系统


[0001]本专利技术涉及文本语意理解领域,尤其涉及一种基于神经语言模型的文本异常词识别方法及系统。

技术介绍

[0002]随着互联网的发展,网民参与度的不断增高,网民发表了大量文本数据。在微博、论坛等网络平台中,网民发表的内容具有很强的随意性,网络用语、新词、错别词层出不穷,如“老铁”、“打call”、“稀饭(谐音喜欢)”等,这些在文本中并不表达其本意的词称为文本中的异常词。这些词的出现给理解文本语意的工作带来了巨大挑战。因此,文本异常词识别是文本语意理解的重要技术,通过识别文本中的异常词,可以针对这些异常词进行特殊的语意理解和选择,找到该词在文本中的真正词意,从而可以更加准确地理解文本的语意。
[0003]目前文本语意理解的主流方法均建立在分布式词向量的基础上,即将每一个词映射为一个词向量,词向量的相似度表示词的语意相似度。那么对于网络新词,已有词向量无法找到其对应词向量;对于因为谐音、编辑错误产生的错别词,已有词向量的语意和词在文本中的语意并不相同。因此直接使用已有词向量的方法在遇到异常词时会造成语意理解的巨大偏差。识别文本中的异常词并学习和选择正确的词向量对正确理解文本语意的具有重要意义。但目前对于网络新词的识别仍然停留在人工构造的关键词匹配水平上,对于文本中的错别词识别并没有相关的研究,这使得社交网络文本的语意分析始终是一大挑战。
[0004]因此,如何准确地识别文本中出现的各种异常词,是正确理解文本语意的基础,是文本语意理解急需解决的问题。<br/>
技术实现思路

[0005]本专利技术的目的在于克服现有技术缺陷,提出了一种基于神经语言模型的文本异常词识别方法及系统。
[0006]一种基于神经语言模型的文本异常词识别方法,用于识别网络用语、新词和错别词,所述方法包括:
[0007]步骤1)采集待识别的文本;
[0008]步骤2)对待识别的文本采用滑窗的方式确定每个词的上下文词序列;
[0009]步骤3)将每个词的上下文词序列分别输入预先建立和训练好的识别模型,得到每个词在该上下文词序列下出现的概率;
[0010]步骤4)对每个词出现的概率和设定的阈值进行比较,判断该词是否为异常词。
[0011]作为上述方法的一种改进,所述识别模型的输入为词,输出为词的识别概率,所述识别模型包括依次连接的词向量层、全连接层、隐含层和预测层。
[0012]作为上述方法的一种改进,所述步骤2)具体包括:
[0013]对于待识别文本T=[w1,w2,...,w
i
,...,w
|T|
],共有|T|个词,上下文窗口长度为2k
+1,k为非负整数,以滑窗的方式得到T中每个词的上下文词序列;其中,以第i个词w
i
为中心词,获得关于词w
i
的上下文词序列[w
i

k
,...w
i
‑1,w
i+1
...,w
i+k
]。
[0014]作为上述方法的一种改进,所述步骤3)具体包括:
[0015]将词w
i
的上下文词序列[w
i

k
,...w
i
‑1,w
i+1
...,w
i+k
]输入预先建立和训练好的识别模型,其中,
[0016]所述词向量层通过word2vec模型将词w
i
的上下文词序列[w
i

k
,...w
i
‑1,w
i+1
...,w
i+k
]映射为对应的词向量[e
i

k
,...,e
i
‑1,e
i+1
,...,e
i+k
];
[0017]所述全连接层将词向量[e
i

k
,...,e
i
‑1,e
i+1
,...,e
i+k
]全连接为一个向量v
i

[0018][0019]所述隐含层通过下式计算得到隐含特征h:
[0020]h=f(Wv
i
+b)
[0021]其中,W为隐含层权重参数矩阵,b为隐含层偏置参数向量,f为激活函数;
[0022]所述预测层通过下式计算得到各个词在第i个词的位置出现的概率向量y:
[0023]y=softmax(Uh+b
h
)
[0024]其中,U为预测层权重参数矩阵,b
h
为预测层偏置参数向量,softmax表示归一化指数函数;
[0025]由y得到词w
i
在第i个词的位置出现的概率y
wi
,y
wi
∈[0,1]。
[0026]作为上述方法的一种改进,所述步骤4)具体包括:
[0027]将词w
i
在第i个词的位置出现的概率y
wi
与设定的阈值l(m)进行比较,当y
wi
大于l(m)时,词w
i
为正常词;否则,词w
i
为异常词。
[0028]作为上述方法的一种改进,所述方法还包括识别模型的训练步骤;具体包括:
[0029]采用Wiki中文、北大中文《人民日报》数据集和/或搜狐新闻数据集,通过分词工具进行预处理得到分词后的文本,构成样本集;
[0030]对样本集中的每一条文本,以每一个位置的词分别作为中心词,记为正样本,以固定大小的上下文窗口获取的中心词以外的词记为负样本,构成训练集,依次输入识别模型;
[0031]设定学习率,训练次数,以最大化该词的出现概率同时最小化异常词出现概率为损失函数进行模型参数训练,直至满足训练要求,得到训练好的识别模型。
[0032]作为上述方法的一种改进,所述方法还包括阈值l(m)的设定,具体包括:
[0033]将训练集的每个词依次输入训练好的识别模型,得到每一个中心词和负采样词的预测概率分布,设定边界概率值m,根据边界概率值m确定所有正样本边界概率点p
pos
(m)和所有负样本边界概率点p
neg
(m):
[0034][0035]其中,z是识别模型预测的词出现的概率,是参与统计的所有正确词得到的概率集合,count(x≥z)表示在中大于或等于z的概率值的个数,表示中概率值的总个数;
[0036][0037]其中,是参与统计的所有负采样词得到的概率集合,count(x≤z)表示在中小于或等于z的概率值的个数,表示中概率值的总个数;
[0038]根据下式确定阈值l(m)为:
[0039]l(m)=本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经语言模型的文本异常词识别方法,用于识别网络用语、新词和错别词,所述方法包括:步骤1)采集待识别的文本;步骤2)对待识别的文本采用滑窗的方式确定每个词的上下文词序列;步骤3)将每个词的上下文词序列分别输入预先建立和训练好的识别模型,得到每个词在该上下文词序列下出现的概率;步骤4)对每个词出现的概率和设定的阈值进行比较,判断该词是否为异常词。2.根据权利要求1所述的基于神经语言模型的文本异常词识别方法,其特征在于,所述识别模型的输入为词,输出为词的识别概率,所述识别模型包括依次连接的词向量层、全连接层、隐含层和预测层。3.根据权利要求1所述的基于神经语言模型的文本异常词识别方法,其特征在于,所述步骤2)具体包括:对于待识别文本T=[w1,w2,...,w
i
,...,w
|T|
],共有|T|个词,上下文窗口长度为2k+1,k为非负整数,以滑窗的方式得到T中每个词的上下文词序列;其中,以第i个词w
i
为中心词,获得关于词w
i
的上下文词序列[w
i

k
,...w
i
‑1,w
i+1
...,w
i+k
]。4.根据权利要求3所述的基于神经语言模型的文本异常词识别方法,其特征在于,所述步骤3)具体包括:将词w
i
的上下文词序列[w
i

k
,...w
i
‑1,w
i+1
...,w
i+k
]输入预先建立和训练好的识别模型,其中,所述词向量层通过word2vec模型将词w
i
的上下文词序列[w
i

k
,...w
i
‑1,w
i+1
...,w
i+k
]映射为对应的词向量[e
i

k
,...,e
i
‑1,e
i+1
,...,e
i+k
];所述全连接层将词向量[e
i

k
,...,e
i
‑1,e
i+1
,...,e
i+k
]全连接为一个向量v
i
:所述隐含层通过下式计算得到隐含特征h:h=f(Wv
i
+b)其中,W为隐含层权重参数矩阵,b为隐含层偏置参数向量,f为激活函数;所述预测层通过下式计算得到各个词在第i个词的位置出现的概率向量y:y=softmax(Uh+b
h
)其中,U为预测层权重参数矩阵,...

【专利技术属性】
技术研发人员:程佳军刘奇林汤珊红高强赵瑞芳
申请(专利权)人:中国人民解放军军事科学院军事科学信息研究中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1