新词发现方法及装置制造方法及图纸

技术编号:12589516 阅读:82 留言:0更新日期:2015-12-24 14:42
一种新词发现方法及装置,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。所述方法及装置可以提升新词发现的准确度。

【技术实现步骤摘要】

本专利技术设及智能交互领域,尤其设及一种新词发现方法及装置
技术介绍
在中文信息处理的众多领域,均需要基于词典完成对应的功能。例如,在智能检索 系统或智能对话系统中,通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答 案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所W词语 词典对于整个系统的性能有着很大的影响。 社会文化的进步和变迁、经济商业的快速发展,往往带动着语言的变化,而最快速 体现语言变化的就是新词的出现。特别是在特定领域内,是否能在新词出现后及时更新词 语词典,对词语词典所在的智能对话系统的系统效率有着决定性的影响。 新词也就是新发现的单独词,在现有技术中,至少有W下=个来源:客户提供的领 域内的新词;通过客户提供的语料发现的新词;运营过程中发现的新词。 现有技术中新词发现准确度有待提升。
技术实现思路
本专利技术解决的技术问题是如何提升新词发现的准确度。 为解决上述技术问题,本专利技术实施例提供一种新词发现方法,包括: 对接收到的语料进行预处理,W得到文本数据; 对所述文本数据进行分行处理,得到语句数据; 依照词典中包含的单独词对所述语句数据进行分词处理,W得到分词后的词语数 据; 对相邻的所述分词后的词语数据进行组合处理,W生成候选数据串; 对所述候选数据串进行判断处理,W发现新词;所述判断处理包括:计算所述候 选数据串中各词语与其外侧词语的信息赌,去除各词语与其外侧词语的信息赌在预设范围 外的候选数据串。 可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所 述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。 可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所 述候选数据串出现的频次和频率计算得到的数值。 可选的,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去 除所述互信息在预设范围外的候选数据串。 可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与内侧词语数 据的信息赌,去除所述信息赌在预设范围外的候选数据串。 可选的,对所述候选数据串进行判断处理,W发现新词依次包括: 计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串; 计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据 串; 计算剩余的所述候选数据串边界词语数据与内侧词语数据的信息赌,去除所述信 息赌在预设范围外的候选数据串; 计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息赌,去除所述信 息赌在预设范围外的候选数据串; 剩余的所述候选数据串作为新词。 可选的,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相 邻词语作为候选数据串。 可选的,所述对接收到的语料进行预处理,W得到文本数据包括:将语料的格式统 一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。 阳0巧]可选的,所述分词处理采用字典双向最大匹配法、HMM方法和CRF方法中的一种或 多种。 可选的,所述新词发现方法还包括:设定候选数据串的长度范围,W排除长度在所 述长度范围之外的候选数据串。 本专利技术实施例还提供一种新词发现装置,包括:预处理单元、分行处理单元、分词 处理单元、组合处理单元W及新词发现单元; 所述预处理单元,适于对接收到的语料进行预处理,W得到文本数据; 所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据; 所述分词处理单元,适于依照词典中包含的词语数据对所述语句数据进行分词处 理,W得到分词后的词语数据; 所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,W生成 候选数据串; 所述新词发现单元,适于对所述候选数据串进行判断处理,W发现新词;所述判断 处理包括:计算所述候选数据串中各词语与其外侧词语的信息赌,去除各词语与其外侧词 语的信息赌在预设范围外的候选数据串。 可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所 述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。 可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所 述候选数据串出现的频次和频率计算得到的数值。 可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与内侧词语数 据的信息赌,去除所述信息赌在预设范围外的候选数据串。 可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与内侧词语数 据的信息赌,去除所述信息赌在预设范围外的候选数据串。 可选的,所述新词发现单元包括:频次过滤单元、互信息过滤单元、内部信息赌过 滤单元W及外部信息赌过滤单元; 所述频次过滤单元,适于计算所述候选数据串的频次,去除所述频次在预设范围 外的候选数据串; 所述互信息过滤单元,适于计算经所述频次过滤单元过滤后,剩余的所述候选数 据串的互信息,去除所述互信息在预设范围外的候选数据串; 内部信息赌过滤单元,适于计算经所述互信息过滤单元过滤后,剩余的所述候选 数据串边界词语数据与内侧词语数据的信息赌,去除所述信息赌在预设范围外的候选数据 串; 所述外部信息赌过滤单元,适于计算经所述内部信息赌过滤单元过滤后,剩余的 所述候选数据串边界词语数据与外侧词语数据的信息赌,去除所述信息赌在预设范围外的 候选数据串。 可选的,所述组合处理单元适于利用Bigram模型将同一行的语句数据中相邻词 语作为候选数据串。 可选的,所述预处理单元适于将语料的格式统一为文本格式;过滤脏词、敏感词和 停用词中的一种或多种。 可选的,所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF方法中 的一种或多种。 可选的,所述新词发现装置还包括:长度过滤单元,适于设定候选数据串的长度范 围,W排除长度在所述长度范围之外的候选数据串。 与现有技术相比,本专利技术实施例的技术方案具有W下有益效果: 通过计算所述候选数据串中各词语与其外侧词语的信息赌,判断候选数据串中各 词语与外侧词语的信息赌,可W判断候选数据串中各词语与其外侧词语相结合的可能性; 去除各词语与其外侧词语的信息赌在预设范围外的候选数据串,可W去除候选数据串中词 语与其外侧词语相结合的可能性较大的候选数据串,从而可W提升新词发现方法的准确 性。 进一步,需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,通 过依次对候选数据串进行判断,判断计算次序在前的概率特征值是否在预设范围内,仅对 概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算,可W减少次序 在后的计算范围,从而减少计算量,提升更新效率。 此外,通过设定候选数据串的长度范围,W排除长度在所述长度范围之外的相邻 词语数据,从而只需对长度在所述长度范围内的相邻词语数据进行概率特征值计算,最终 可W进一步减小新词发现的计算量,提升更新效率。【附图说明】 图1是本专利技术实施例中一种新词发现方法的流程图; 图2是本专利技术实施例中另一种新词发现方法的流程图; 图3是本专利技术实施例中另一种新词发现方法的流程图; 图4是本专利技术实施例中另一种新词发现方法的流程图; 图5是本专利技术实施例中一种判断处理的流程图; 图6是本专利技术实施例中一种新本文档来自技高网...
新词发现方法及装置

【技术保护点】
一种新词发现方法,其特征在于,包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。

【技术特征摘要】

【专利技术属性】
技术研发人员:张昊朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1