新词发现方法及装置制造方法及图纸

技术编号:12653667 阅读:78 留言:0更新日期:2016-01-06 11:37
一种新词发现方法及装置,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;对所述候选数据串进行判断处理,以发现新词。所述方法及装置可以提升新词发现的准确率。

【技术实现步骤摘要】

本专利技术设及智能交互领域,尤其设及一种新词发现方法及装置
技术介绍
在中文信息处理的众多领域,均需要基于词典完成对应的功能。例如,在智能检索 系统或智能对话系统中,通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答 案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所W词语 词典对于整个系统的性能有着很大的影响。 社会文化的进步和变迁、经济商业的快速发展,往往带动着语言的变化,而最快速 体现语言变化的就是新词的出现。特别是在特定领域内,是否能在新词出现后及时更新词 语词典,对词语词典所在的智能对话系统的系统效率有着决定性的影响。 新词也就是新发现的单独词,在现有技术中,至少有W下=个来源:客户提供的领 域内的新词;通过客户提供的语料发现的新词;运营过程中发现的新词。 现有技术中新词发现准确度有待提升。
技术实现思路
本专利技术解决的技术问题是如何提升新词发现的准确度。 为解决上述技术问题,本专利技术实施例提供一种新词发现方法,包括: 对接收到的语料进行预处理,W得到文本数据; 对所述文本数据进行分行处理,得到语句数据; 依照基础词典中包含的单独词对所述语句数据进行分词处理,W得到分词后的词 语数据; 对相邻的所述分词后的词语数据进行组合处理,W生成候选数据串; 判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名 词,且位于所述基础名词的特定相对位置的词语为名词或形容词; 对所述候选数据串进行判断处理,W发现新词;所述判断处理包括: 当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧 词语的信息赌,并去除所述信息赌在预设范围外的候选数据串; 当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内 侧词语的信息赌,去除所述信息赌在预设范围外的候选数据串。 可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所 述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。 可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所 述候选数据串出现的频次和频率计算得到的数值。 可选的,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去 除所述互信息在预设范围外的候选数据串。 可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧词语数 据的信息赌,去除所述信息赌在预设范围外的候选数据串。 可选的,对所述候选数据串进行判断处理,W发现新词依次包括: 计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串; 计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据 串;当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与 其内侧词语的信息赌,并去除所述信息赌在预设范围外的候选数据串;当剩余的所述候选 数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息赌,去 除所述信息赌在预设范围外的候选数据串; 计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息赌,去除所述信 息赌在预设范围外的候选数据串; 剩余的所述候选数据串作为新词。 阳0%] 可选的,所述特定相对位置为左侧和右侧中的一种或两种。 可选的,参照频次确定所述基础名词。 可选的,参照词语数据的位置W及所述词语数据左信息赌和右信息赌的差值确定 所述基础名词。 可选的,所述对接收到的语料进行预处理,W得到文本数据包括:将语料的格式统 一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。 可选的,所述分词处理采用字典双向最大匹配法、HMM方法和CRF方法中的一种或 多种。 可选的,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相 邻词语作为候选数据串。 可选的,所述新词发现方法还包括:设定候选数据串的长度范围,W排除长度在所 述长度范围之外的候选数据串。 本专利技术实施例还提供一种新词发现装置,包括:预处理单元、分行处理单元、分词 处理单元、组合处理单元、特定候选数据串判断单元;W及新词发现单元; 所述预处理单元,适于对接收到的语料进行预处理,W得到文本数据; 所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据; 所述分词处理单元,适于依照词典中包含的词语数据对所述语句数据进行分词处 理,W得到分词后的词语数据; 所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,W生成 候选数据串; 所述特定候选数据串判断单元,适于判断所述候选数据串是否为特定候选数据 串,所述特定候选数据串包括基础名词且位于所述基础名词的特定相对位置的词语为名词 或形容词; 所述新词发现单元,适于对所述候选数据串进行判断处理,W发现新词;所述判断 处理包括:当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧 词语的信息赌,并去除所述信息赌在预设范围外的候选数据串; 当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内 侧词语的信息赌,去除所述信息赌在预设范围外的候选数据串。 可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所 述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。 可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所 述候选数据串出现的频次和频率计算得到的数值。 可选的,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去 除所述互信息在预设范围外的候选数据串。 可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧词语数 据的信息赌,去除所述信息赌在预设范围外的候选数据串。 阳046] 可选的,所述新词发现单元包括:频次过滤单元、互信息过滤单元、内部信息赌过 滤单元W及外部信息赌过滤单元;所述频次过滤单元,适于计算所述候选数据串的频次,去除所述频次在预设范围 外的候选数据串;所述互信息过滤单元,适于计算经所述频次过滤单元过滤后,剩余的所述候选数 据串的互信息,去除所述互信息在预设范围外的候选数据串; 内部信息赌过滤单元,适于当剩余的所述候选数据串非特定候选数据串时,计算 所述候选数据串中各词语与其内侧词语的信息赌,并去除所述信息赌在预设范围外的候选 数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语 与其内侧词语的信息赌,去除所述信息赌在预设范围外的候选数据串; 阳050]所述外部信息赌过滤单元,适于计算经所述内部信息赌过滤单元过滤后,剩余的 所述候选数据串边界词语数据与外侧词语数据的信息赌,去除所述信息赌在预设范围外的 候选数据串。 可选的,所述特定相对位置为左侧和右侧中的一种或两种。 可选的,所述特定候选数据串判断单元,适于参照频次确定所述基础名词。 可选的,所述特定候选数据串判断单元,适于参照词语数据的位置W及所述词语 数据左信息赌和右信息赌的差值确定所述基础名词。 可选的,所述组合处理单元适于利用Bigram模型将同一行的语句数据中相邻当前第1页1 2 3 4 5 本文档来自技高网...
新词发现方法及装置

【技术保护点】
一种新词发现方法,其特征在于,包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。

【技术特征摘要】

【专利技术属性】
技术研发人员:张昊朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1