一种领域新词发现的方法及装置制造方法及图纸

技术编号:14836731 阅读:39 留言:0更新日期:2017-03-17 04:08
本发明专利技术提出了一种领域新词发现的方法及装置,该方法包括:获取通用新词候选词串;根据预先设定的领域类别及对应的领域语料,采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串;当所述新词候选词串为领域新词候选词串时,通过相似度计算判断所述领域新词候选词串是否为领域新词。作为为领域新词候选词的过滤提供了新的思路,本发明专利技术能够简便且有效地过滤掉部分垃圾词串和通用词,筛选出领域新词从而减少了工作量,降低了人工成本。以爬取的百度知道语料为例,领域新词的准确率为91.5%左右。

【技术实现步骤摘要】

本专利技术涉及自动问答
,尤其涉及一种领域新词发现的方法及装置
技术介绍
新词抽取主要是基于统计和规则的方法。基于规则的方法通常是新词的内部构成语法规则或者新词的前后缀规则,以此为准则发现新词。基于统计方法一般是寻找描述新词特征的统计量抽取候选词串,计算其内部聚合度和自由度,在此基础上确定阈值,寻找聚合度和自由度最大的字符串组合。但阈值的确定是个难题,必然存在抽取的新词并非新词的问题,因此,新词候选词中包含垃圾词串、通用词、通用新词和领域新词,其中通用新词属于通用词的一部分。之后,需要大量人工参与新词过滤。而领域新词发现通常是在通用新词发现的基础上,经过人工过滤并分类实现的,工作量大且人工成本非常高。
技术实现思路
本专利技术要解决的技术问题是,提供一种领域新词发现的方法及装置,能够从领域新词候选词中自动过滤掉部分垃圾词串和通用词,有效地获得更加准确的领域新词候选词。本专利技术采用的技术方案是,所述领域新词发现的方法,包括:获取通用新词候选词串;根据预先设定的领域类别及对应的领域语料,采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串;当所述新词候选词串为领域新词候选词串时,通过相似度计算判断所述领域新词候选词串是否为领域新词。进一步的,所述获取通用新词候选词串采用以下一种或多种方法的结合:内部构成语法规则方法、前后缀规则方法和特征统计方法。进一步的,采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串包括:采用包括所述通用新词候选词串的词典对每个所述领域语料进行分词处理,得到各领域的词语集;计算所述通用新词候选词串在每个领域的词语集中出现概率,并将最大的所述出现概率对应的领域类别作为目标领域类别;计算所述通用新词候选词串在至少部分预先设定的领域类别中分布的信息熵,当所述信息熵小于或等于信息熵阈值时,所述通用新词候选词串为所述目标领域类别的领域新词候选词串。进一步的,所述信息熵阈值的取值范围为:1.5~2.5。进一步的,设a为所述通用新词候选词串,所述通用新词候选词串在至少部分预先设定的领域类别中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n为所述至少部分预先设定的领域类别的个数,p1、p2、…、pn为所述通用新词候选词串a在n个所述领域语料的出现概率。进一步的,所述方法还包括:在采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串之前,对所述预先设定的领域类别的领域语料进行如下预处理:将所述预先设定的领域类别的领域语料的格式统一为文本格式;去除含有敏感词的领域语料,根据剩余的领域语料中所含有的断句标点将所述剩余的领域语料分割成句。进一步的,所述通过相似度计算判断所述领域新词候选词串是否为领域新词包括:从所述领域新词候选词串对应的领域语料中选择全部或部分的其他词串作为种子词串;计算所述领域新词候选词串与每个所述种子词串的相似度;当最大所述相似度大于相似度阈值时,所述领域新词候选词串为领域新词。进一步的,所述相似度阈值的取值范围为0.6-0.8。进一步的,判定为领域新词的领域新词候选词串也作为相应领域的种子词串。进一步的,所述方法还包括:在得到多个所述领域新词后,进行人工审核,得到领域新词的发现准确率;当所述发现准确率小于或等于准确率阈值时,调整所述信息熵阈值和/或所述相似度阈值,直至根据调整后的所述信息熵阈值和/或所述相似度阈值得到的发现准确率大于准确率阈值为止。本专利技术还提供一种领域新词发现的装置,包括:获取模块,用于获取通用新词候选词串;存储模块,用于存储预先设定的领域类别及对应的领域语料;统计模块,用于根据预先设定的领域类别及对应的领域语料,采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串;相似度计算模块,用于当所述新词候选词串为领域新词候选词串时,通过相似度计算判断所述领域新词候选词串是否为领域新词。进一步的,所述获取模块,用于采用以下一种或多种方法的结合获取通用新词候选词串:内部构成语法规则方法、前后缀规则方法和特征统计方法。进一步的,所述统计模块,包括:分词单元,用于采用包括所述通用新词候选词串的词典对每个所述领域语料进行分词处理,得到各领域的词语集;概率计算单元,用于计算所述通用新词候选词串在每个领域的词语集中出现概率;目标领域确定单元,用于将最大的所述出现概率对应的领域类别作为目标领域类别;信息熵计算单元,用于计算所述通用新词候选词串在至少部分预先设定的领域类别中分布的信息熵;新词确认单元,用于当所述信息熵小于或等于信息熵阈值时,确认所述通用新词候选词串为所述目标领域类别的领域新词候选词串。进一步的,所述统计模块,还包括:预处理单元,用于在采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串之前,将所述预先设定的领域类别的领域语料的格式统一为文本格式;去除含有敏感词的领域语料,根据剩余的领域语料中所含有的断句标点将所述剩余的领域语料分割成句。进一步的,所述信息熵阈值的取值范围为:1.5~2.5。进一步的,所述信息熵计算单元采用以下公式进行计算:设a为所述通用新词候选词串,所述通用新词候选词串在至少部分预先设定的领域类别中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n为所述至少部分预先设定的领域类别的个数,p1、p2、…、pn为所述通用新词候选词串a在n个所述领域语料的出现概率。进一步的,所述相似度计算模块,包括:种子词串选择单元,用于从所述领域新词候选词串对应的领域语料中选择全部或部分的其他词串作为种子词串;相似运算单元,用于计算所述领域新词候选词串与每个所述种子词串的相似度;判定单元,用于当最大所述相似度大于相似度阈值时,所述领域新词候选词串为领域新词。进一步的,所述相似度阈值的取值范围为0.6-0.8。进一步的,所述相似度计算模块,还包括:种子词串更新单元,用于将判定为领域新词的领域新词候选词串也作为相应领域的种子词串。进一步的,所述装置还包括:准确率确定模块,用于在得到多个所述领域新词后,进行人工审核,得到领域新词的发现准确率;校正模块,用于当所述发现准确率小于或等于准确率阈值时,调整所述信息熵阈值和/或所述相似度阈值,直至根据调整后的所述信息熵阈值和/或所述相似度阈值得到的发现准确率大于准确率阈值为止。采用上述技术方案,本专利技术至少具有下列优点:作为自动问答领域的基础技术和重要的步骤,本专利技术所述领域新词发现的方法及装置为领域新词候选词的过滤提供了新的思路,本专利技术能够简便且有效地过滤掉部分垃圾词串和通用词,筛选出领域新词从而减少了工作量,降低了人工成本。以爬取的百度知道语料为例,领域新词的准确率为91.5%左右。附图说明图1为本专利技术第一实施例的领域新词发现的方法流程图;图2为本专利技术第二实施例的领域新词发现的方法流程图;图3为本专利技术第三实施例的领域新词发现的方法流程图;图4为本专利技术第四实施例的领域新词发现的装置组成结构示意图;图5为本专利技术第五实施例的领域新词发现的装置组成结构示意图;图6为本专利技术第六实施例的领域新词发现的装置组成结构示意图;图7为本专利技术第七实施例的各领域语料的获取及预处理流程图;图8为本本文档来自技高网...
一种领域新词发现的方法及装置

【技术保护点】
一种领域新词的发现方法,其特征在于,包括:获取通用新词候选词串;根据预先设定的领域类别及对应的领域语料,采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串;当所述新词候选词串为领域新词候选词串时,通过相似度计算判断所述领域新词候选词串是否为领域新词。

【技术特征摘要】
1.一种领域新词的发现方法,其特征在于,包括:获取通用新词候选词串;根据预先设定的领域类别及对应的领域语料,采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串;当所述新词候选词串为领域新词候选词串时,通过相似度计算判断所述领域新词候选词串是否为领域新词。2.如权利要求1所述的方法,其特征在于,所述获取通用新词候选词串采用以下一种或多种方法的结合:内部构成语法规则方法、前后缀规则方法和特征统计方法。3.如权利要求1所述的方法,其特征在于,采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串包括:采用包括所述通用新词候选词串的词典对每个所述领域语料进行分词处理,得到各领域的词语集;计算所述通用新词候选词串在每个所述领域语料的出现概率,并将最大的所述出现概率对应的领域类别作为目标领域类别;计算所述通用新词候选词串在至少部分预先设定的领域类别中分布的信息熵,当所述信息熵小于或等于信息熵阈值时,所述通用新词候选词串为所述目标领域类别的领域新词候选词串。4.如权利要求1所述的方法,其特征在于,所述方法还包括:在采用统计的方法判断所述通用新词候选词串是否为领域新词候选词串之前,对所述预先设定的领域类别的领域语料进行如下预处理:将所述预先设定的领域类别的领域语料的格式统一为文本格式;去除含有敏感词的领域语料,根据剩余的领域语料中所含有的断句标点将所述剩余的领域语料分割成句。5.如权利要求3所述的方法,其特征在于,所述信息熵阈值的取值范围为:1.5~2.5。6.如权利要求3所述的方法,其特征在于,设a为所述通用新词候选词串,所述通用新词候选词串在至少部分预先设定的领域类别中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n为所述至少部分预先设定的领域类别的个数,p1、p2、…、pn为所述通用新词候选词串a在n个所述领域语料的出现概率。7.如权利要求1所述的方法,其特征在于,所述通过相似度计算判断所述领域新词候选词串是否为领域新词包括:从所述领域新词候选词串对应的领域语料中选择全部或部分的其他词串作为种子词串;计算所述领域新词候选词串与每个所述种子词串的相似度;当最大所述相似度大于相似度阈值时,所述领域新词候选词串为领域新词。8.如权利要求3所述的方法,其特征在于,所述通过相似度计算判断所述领域新词候选词串是否为领域新词包括:从所述领域新词候选词串对应的领域语料中选择全部或部分的其他词串作为种子词串;计算所述领域新词候选词串与每个所述种子词串的相似度;当最大所述相似度大于相似度阈值时,所述领域新词候选词串为领域新词。9.如权利要求7或8所述的方法,其特征在于,所述相似度阈值的取值范围为0.6-0.8。10.如权利要求7或8所述的方法,其特征在于,所述方法还包括:将判定为领域新词的领域新词候选词串也作为相应领域的种子词串。11.如权利要求8所述的方法,其特征在于,还包括:在得到多个所述领域新词后,进行人工审核,得到领域新词的发现准确率;当所述发现准确率小于或等于准确率阈值时,调整所述信息熵阈值和/或所述相似度阈值,直至根据调整后的所述信息熵阈值和/或所述相似度阈值得到的发现准确率大于准确率阈值为止。12.一种领域新词的发现装置,其特征在于,包括:获取模块,用于获取通用新词候选词串;存储模块,用于存储预先设定的领域类别及对应的领域语料;统计模块,用于根据预先设定...

【专利技术属性】
技术研发人员:谢瑜张昊朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1