【技术实现步骤摘要】
一种基于神经语言模型的文本异常词识别方法及系统
[0001]本专利技术涉及文本语意理解领域,尤其涉及一种基于神经语言模型的文本异常词识别方法及系统。
技术介绍
[0002]随着互联网的发展,网民参与度的不断增高,网民发表了大量文本数据。在微博、论坛等网络平台中,网民发表的内容具有很强的随意性,网络用语、新词、错别词层出不穷,如“老铁”、“打call”、“稀饭(谐音喜欢)”等,这些在文本中并不表达其本意的词称为文本中的异常词。这些词的出现给理解文本语意的工作带来了巨大挑战。因此,文本异常词识别是文本语意理解的重要技术,通过识别文本中的异常词,可以针对这些异常词进行特殊的语意理解和选择,找到该词在文本中的真正词意,从而可以更加准确地理解文本的语意。
[0003]目前文本语意理解的主流方法均建立在分布式词向量的基础上,即将每一个词映射为一个词向量,词向量的相似度表示词的语意相似度。那么对于网络新词,已有词向量无法找到其对应词向量;对于因为谐音、编辑错误产生的错别词,已有词向量的语意和词在文本中的语意并不相同。因此直接使用已有词向量的方法在遇到异常词时会造成语意理解的巨大偏差。识别文本中的异常词并学习和选择正确的词向量对正确理解文本语意的具有重要意义。但目前对于网络新词的识别仍然停留在人工构造的关键词匹配水平上,对于文本中的错别词识别并没有相关的研究,这使得社交网络文本的语意分析始终是一大挑战。
[0004]因此,如何准确地识别文本中出现的各种异常词,是正确理解文本语意的基础,是文本语意理解急需解决的问题。< ...
【技术保护点】
【技术特征摘要】
1.一种基于神经语言模型的文本异常词识别方法,用于识别网络用语、新词和错别词,所述方法包括:步骤1)采集待识别的文本;步骤2)对待识别的文本采用滑窗的方式确定每个词的上下文词序列;步骤3)将每个词的上下文词序列分别输入预先建立和训练好的识别模型,得到每个词在该上下文词序列下出现的概率;步骤4)对每个词出现的概率和设定的阈值进行比较,判断该词是否为异常词。2.根据权利要求1所述的基于神经语言模型的文本异常词识别方法,其特征在于,所述识别模型的输入为词,输出为词的识别概率,所述识别模型包括依次连接的词向量层、全连接层、隐含层和预测层。3.根据权利要求1所述的基于神经语言模型的文本异常词识别方法,其特征在于,所述步骤2)具体包括:对于待识别文本T=[w1,w2,...,w
i
,...,w
|T|
],共有|T|个词,上下文窗口长度为2k+1,k为非负整数,以滑窗的方式得到T中每个词的上下文词序列;其中,以第i个词w
i
为中心词,获得关于词w
i
的上下文词序列[w
i
‑
k
,...w
i
‑1,w
i+1
...,w
i+k
]。4.根据权利要求3所述的基于神经语言模型的文本异常词识别方法,其特征在于,所述步骤3)具体包括:将词w
i
的上下文词序列[w
i
‑
k
,...w
i
‑1,w
i+1
...,w
i+k
]输入预先建立和训练好的识别模型,其中,所述词向量层通过word2vec模型将词w
i
的上下文词序列[w
i
‑
k
,...w
i
‑1,w
i+1
...,w
i+k
]映射为对应的词向量[e
i
‑
k
,...,e
i
‑1,e
i+1
,...,e
i+k
];所述全连接层将词向量[e
i
‑
k
,...,e
i
‑1,e
i+1
,...,e
i+k
]全连接为一个向量v
i
:所述隐含层通过下式计算得到隐含特征h:h=f(Wv
i
+b)其中,W为隐含层权重参数矩阵,b为隐含层偏置参数向量,f为激活函数;所述预测层通过下式计算得到各个词在第i个词的位置出现的概率向量y:y=softmax(Uh+b
h
)其中,U为预测层权重参数矩阵,...
【专利技术属性】
技术研发人员:程佳军,刘奇林,汤珊红,高强,赵瑞芳,
申请(专利权)人:中国人民解放军军事科学院军事科学信息研究中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。