新词发现方法、装置、终端及服务器制造方法及图纸

技术编号:15541932 阅读:213 留言:0更新日期:2017-06-05 11:06
一种新词发现方法、装置、终端及服务器,新词发现方法包括:对原始语料进行新词发现操作,以得到新词候选词;对所述原始语料进行分词,以得到第一分词结果;基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分,其中所述新词候选词的子部分包含在所述第一分词结果中,所述新词候选词包括至少两个所述第一分词结果中的词;计算所述新词候选词与其子部分的语义相似度;如果所述语义相似度小于设定阈值,则将所述新词候选词确定为新词。本发明专利技术技术方案提高了新词提取的效率和精准度。

New word discovery method, device, terminal and server

A new discovery method, device, terminal and server, word detection method includes: the original corpus for word discovery operation, in order to obtain new candidate words; word segmentation of the original data, to obtain the first segmentation results; the first resolution of the word segmentation results to obtain the candidate word word candidate word sub based on part, wherein the new candidate word sub part is contained in the first segmentation results, the new candidate words including at least two of the first segmentation results in words; semantic similarity of the words and the sub section of the candidate words; if the semantic similarity is less than the threshold, then the the new candidate words identified as new words. The technical proposal of the invention improves the efficiency and the precision of the new words extraction.

【技术实现步骤摘要】
新词发现方法、装置、终端及服务器
本专利技术涉及自然语言处理领域,尤其涉及一种新词发现方法、装置、终端及服务器。
技术介绍
在自然语言领域的实际应用中,有些场景需要确定具备新的特定含义的词语,也就是新词,例如新三板、警示股、母基金。因此,需要对文本或语料中的进行新词抽取操作。现有技术中,新词抽取主要是基于统计和规则的方法。基于规则的方法通常是基于新词的内部语法规则或者新词的前后缀规则,并以此为准则发现新词。基于统计方法一般是寻找描述新词特征的统计量,常用统计量有成词概率、互信息、刚性等等;并抽取候选词串,计算其内部聚合度和自由度,在此基础上确定阈值,寻找聚合度和自由度最大的字符串组合作为新词。但时,基于规则的方法中,如何建立全面完整的规则是亟需解决的问题;在基于统计方法中,阈值的确定是个难题,导致抽取的新词并非新词的问题,从而导致新词候选词中包含垃圾词串(比如“做家务”、“这本书”、“的时候”等),进而需要大量人工参与新词过滤,效率极低。
技术实现思路
本专利技术解决的技术问题是如何提高新词提取的效率和精准度。为解决上述技术问题,本专利技术实施例提供一种新词发现方法,新词发现方法包括:对原始语料进行新词发现操作,以得到新词候选词;对所述原始语料进行分词,以得到第一分词结果;基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分,其中所述新词候选词的子部分包含在所述第一分词结果中,所述新词候选词包括至少两个所述第一分词结果中的词;计算所述新词候选词与其子部分的语义相似度;如果所述语义相似度小于设定阈值,则将所述新词候选词确定为新词。可选的,所述新词发现方法还包括:如果所述语义相似度大于或等于设定阈值,则将所述新词候选词确定为垃圾词串。可选的,所述计算所述新词候选词与其子部分的语义相似度包括:计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量;根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。可选的,对所述原始语料进行分词是基于分词词典完成的,所述对原始语料进行新词发现操作,以得到新词候选词之后还包括:将所述新词候选词添加至分词词典。可选的,所述新词发现方法还包括:利用加入所述新词候选词的分词词典对所述原始语料进行分词,得到第二分词结果,所述第二分词结果至少包括所述新词候选词。可选的,所述计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量包括:基于所述第一分词结果和所述第二分词结果,计算得到所述第一分词结果和所述第二分词结果中所有词的词向量;计算每一新词候选词的子部分对应的各个词的词向量之和,以作为所述每一新词候选词的子部分的词向量。可选的,所述计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量包括:对所述原始语料进行分字处理,以得到字列表;基于所述第一分词结果、所述第二分词结果和所述字列表,计算得到所述第一分词结果和所述第二分词结果中所有词的词向量;计算每一新词候选词的子部分对应的各个词的词向量之和,以作为所述每一新词候选词的子部分的词向量。可选的,通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型,得到所述第一分词结果和所述第二分词结果中所有词的词向量。可选的,所述新词发现方法还包括:对确定的所述新词的准确率进行评估,得到评估结果;根据所述评估结果调整所述设定阈值;利用调整后的所述设定阈值再次确定所述新词,直至确定的所述新词的准确率符合预设要求。可选的,所述计算所述新词候选词与其子部分的语义相似度包括:计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离,以衡量所述语义相似度。可选的,所述对所述原始语料进行分词之前还包括:对所述原始语料进行预处理,以得到格式统一的所述原始语料。可选的,采用统计或规则算法进行所述新词发现操作。为解决上述技术问题,本专利技术实施例还公开了一种新词发现装置,新词发现装置包括:新词发现单元,用于对原始语料进行新词发现操作,以得到新词候选词;第一分词单元,用于对所述原始语料进行分词,以得到第一分词结果;子部分确定单元,用于基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分,其中所述新词候选词的子部分包含在所述第一分词结果中,所述新词候选词包括至少两个所述第一分词结果中的词;相似度计算单元,用于计算所述新词候选词与其子部分的语义相似度;新词确定单元,用于在所述语义相似度小于设定阈值时,将所述新词候选词确定为新词。可选的,所述新词确定单元在所述语义相似度大于或等于设定阈值时,将所述新词候选词确定为垃圾词串。可选的,所述相似度计算单元包括:词向量计算子单元,用于计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量;相似度计算子单元,用于根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。可选的,所述新词发现装置还包括:新词添加单元,用于将所述新词候选词添加至分词词典,对所述原始语料进行分词是基于所述分词词典完成的。可选的,所述新词发现装置还包括:第二分词单元,用于利用加入所述新词候选词的分词词典对所述原始语料进行分词,得到第二分词结果,所述第二分词结果包括所述新词候选词。可选的,所述词向量计算子单元包括:第一分词结果计算子单元,用于基于所述第一分词结果和所述第二分词结果,计算得到所述第一分词结果和所述第二分词结果中所有词的词向量;第一子部分加和子单元,用于计算每一新词候选词的子部分对应的各个词的词向量之和,以作为所述每一新词候选词的子部分的词向量。可选的,所述词向量计算子单元包括:分字单元,用于对所述原始语料进行分字处理,以得到字列表;第二分词结果计算子单元,用于基于所述第一分词结果、所述第二分词结果和所述字列表,计算得到所述第一分词结果和所述第二分词结果中所有词的词向量;第二子部分加和子单元,用于计算每一新词候选词的子部分对应的各个词的词向量之和,以作为所述每一新词候选词的子部分的词向量。可选的,所述第二分词结果计算子单元通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型,得到所述第一分词结果和所述第二分词结果中所有词的词向量。可选的,所述新词发现装置还包括:评估单元,用于对确定的所述新词的准确率进行评估,得到评估结果;调整单元,用于根据所述评估结果调整所述设定阈值;验证单元,用于利用调整后的所述设定阈值再次确定所述新词,直至确定的所述新词的准确率符合预设要求。可选的,所述相似度计算单元计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离,以衡量所述语义相似度。可选的,所述新词发现装置还包括:预处理单元,用于对所述原始语料进行预处理,以得到格式统一的所述原始语料。可选的,采用统计或规则算法进行所述新词发现操作。为解决上述技术问题,本专利技术实施例还公开了一种终端,所述终端包括所述新词发现装置。为解决上述技术问题,本专利技术实施例还公开了一种服务器,所述服务器包括所述新词发现装置。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术技术方案对原始语料进行新词发现操作,以得到新词候选词;对所述原始语料进行分词,以得到第一分词结果;基于所述第一分词结果本文档来自技高网...
新词发现方法、装置、终端及服务器

【技术保护点】
一种新词发现方法,其特征在于,包括:对原始语料进行新词发现操作,以得到新词候选词;对所述原始语料进行分词,以得到第一分词结果;基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分,其中所述新词候选词的子部分包含在所述第一分词结果中,所述新词候选词包括至少两个所述第一分词结果中的词;计算所述新词候选词与其子部分的语义相似度;如果所述语义相似度小于设定阈值,则将所述新词候选词确定为新词。

【技术特征摘要】
1.一种新词发现方法,其特征在于,包括:对原始语料进行新词发现操作,以得到新词候选词;对所述原始语料进行分词,以得到第一分词结果;基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分,其中所述新词候选词的子部分包含在所述第一分词结果中,所述新词候选词包括至少两个所述第一分词结果中的词;计算所述新词候选词与其子部分的语义相似度;如果所述语义相似度小于设定阈值,则将所述新词候选词确定为新词。2.根据权利要求1所述的新词发现方法,其特征在于,还包括:如果所述语义相似度大于或等于设定阈值,则将所述新词候选词确定为垃圾词串。3.根据权利要求1所述的新词发现方法,其特征在于,所述计算所述新词候选词与其子部分的语义相似度包括:计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量;根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。4.根据权利要求3所述的新词发现方法,其特征在于,对所述原始语料进行分词是基于分词词典完成的,所述对原始语料进行新词发现操作,以得到新词候选词之后还包括:将所述新词候选词添加至分词词典。5.根据权利要求4所述的新词发现方法,其特征在于,还包括:利用加入所述新词候选词的分词词典对所述原始语料进行分词,得到第二分词结果,所述第二分词结果至少包括所述新词候选词。6.根据权利要求5所述的新词发现方法,其特征在于,所述计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量包括:基于所述第一分词结果和所述第二分词结果,计算得到所述第一分词结果和所述第二分词结果中所有词的词向量;计算每一新词候选词的子部分对应的各个词的词向量之和,以作为所述每一新词候选词的子部分的词向量。7.根据权利要求5所述的新词发现方法,其特征在于,所述计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量包括:对所述原始语料进行分字处理,以得到字列表;基于所述第一分词结果、所述第二分词结果和所述字列表,计算得到所述第一分词结果和所述第二分词结果中所有词的词向量;计算每一新词候选词的子部分对应的各个词的词向量之和,以作为所述每一新词候选词的子部分的词向量。8.根据权利要求7所述的新词发现方法,其特征在于,通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型,得到所述第一分词结果和所述第二分词结果中所有词的词向量。9.根据权利要求1所述的新词发现方法,其特征在于,还包括:对确定的所述新词的准确率进行评估,得到评估结果;根据所述评估结果调整所述设定阈值;利用调整后的所述设定阈值再次确定所述新词,直至确定的所述新词的准确率符合预设要求。10.根据权利要求1至9任一项所述的新词发现方法,其特征在于,所述计算所述新词候选词与其子部分的语义相似度包括:计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离,以衡量所述语义相似度。11.根据权利要求1至9任一项所述的新词发现方法,其特征在于,所述对所述原始语料进行分词之前还包括:对所述原始语料进行预处理,以得到格式统一的所述原始语料。12.根据权利要求1至9任一项所述的新词发现方法,其特征在于,采用统计或规则算法进行所述新词发现操作。13.一种新词发现装置,其特征在于,包括:新词发现单元,用于对原始语料进行新词发现操作,以得到新词候选词;第一分词单元,用于对所述原始语料进行分词,以得到第一分词结果;子部分确定单元,用于基于所述第一分词...

【专利技术属性】
技术研发人员:谢瑜张昊朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1