一种短文本新词发现方法技术

技术编号：14013472 阅读：188 留言：0更新日期：2016-11-17 15:09

本发明专利技术公开了一种短文本新词发现方法。本方法为：1)从当前短文本中提取一字符串s，计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s)；2)取左邻熵HL(s)和右邻熵HL(s)的较小值，记为BE(s)；3)计算该字符串s的成词概率Prword(s)，根据Prword(s)的值确定词s是否为新词。本发明专利技术大大提高了新词发现的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机数据挖掘领域中文本挖掘领域，涉及一种基于加权左右邻接熵与对称条件概率相结合的短文本新词发现方法。
技术介绍
新词发现是一种重要的信息组织方式，研究的目标是自动挖掘和分析文本中出现的新词。随着网络技术、社交网络技术的蓬勃发展，语言的内涵、形式都在不断的改变与扩充。网络QQ、微博、论坛等这一时下最为流行的媒体，涌现了大量个体主观信息，这些信息对市场趋势、行为预测、观点分析、人机交互等诸多领域有着极为重要的现实意义。新词发现作为中文信息处理领域的一项基础性任务，直接影响到分词技术、自然语言处理等其它中文信息处理任务的准确性与性能。越来越多的新词是由互联网用户直接创造的，因此从互联网用户直接产生的语料中挖掘新词将是一个新的研究热点。面向互联网的新词发现具有极其重要的研究意义：从理论研究上看，新词发现对机器翻译、信息检索、语法句法分析等领域有很大的影响，还为分词技术、自然语言处理、人工智能中其他多语言相关问题的解决提供良好的基础，同时在所取得的每一个进步，都有助于加深我们对人类的智能、语言、思维、情感等问题的了解。更重要的是，情感分析还具有广阔的应用前...
一种短文本新词发现方法

【技术保护点】
一种短文本新词发现方法，其步骤为：1)从当前短文本中提取一字符串s，计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s)；2)取左邻熵HL(s)和右邻熵HL(s)的较小值，记为BE(s)；3)根据对称条件概率SCP(s)和BE(s)计算该字符串s的成词概率Prword(s)，然后根据Prword(s)值确定该字符串s是否为新词。

【技术特征摘要】
1.一种短文本新词发现方法，其步骤为：1)从当前短文本中提取一字符串s，计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s)；2)取左邻熵HL(s)和右邻熵HL(s)的较小值，记为BE(s)；3)根据对称条件概率SCP(s)和BE(s)计算该字符串s的成词概率Prword(s)，然后根据Prword(s)值确定该字符串s是否为新词。2.如权利要求1所述的方法，其特征在于，对于每一个子串s，计算字符串s在该短文本中的频率freq(s)，如果freq(s)≥Tfreq，则计算SCP(s)；其中，Tfreq为频率阈值。3.如权利要求1或2所述的方法，其特征在于，步骤3)中，如果Prword(s)≥TPr，则该子串s为新词；其中TPr为设定的阈值。4.如权利要求1或2所述的方法，其特征在于，成词的概率计算方法为：对邻接熵的值和对称条件概率的值进行归一化处理，然后对两个结果进行加权计算。5.如权利要求4所述的方法，其特征在于，计算该成词概率的公式为：Prword(s)＝(1-μ)Nor(BE(s))+μN...

【专利技术属性】
技术研发人员：庞琳，赵志云，刘春阳，张旭，李雄，王卿，王萌，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人