计算机可读存储介质及计算机系统技术方案

技术编号:19593406 阅读:37 留言:0更新日期:2018-11-28 04:53
本发明专利技术公开了一种计算机可读存储介质及计算机系统。所述介质上存储有程序,该程序被执行时实现词典更新方法,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。本发明专利技术可以降低词典维护成本,提升词典更新效率。

【技术实现步骤摘要】
计算机可读存储介质及计算机系统本申请是申请日为2015年10月27日,申请号为201510706335.X,专利技术创造名称为“词典更新方法及装置”的分案申请。
本专利技术涉及智能交互领域,尤其涉及一种计算机可读存储介质及计算机系统。
技术介绍
在中文信息处理的众多领域,均需要基于词典完成对应的功能。例如,在智能检索系统或智能对话系统中,通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所以词语词典对于整个系统的性能有着很大的影响。社会文化的进步和变迁、经济商业的快速发展,往往带动着语言的变化,而最快速体现语言变化的就是新词的出现。特别是在特定领域内,是否能在新词出现后及时更新词语词典,对词语词典所在的智能对话系统的系统效率有着决定性的影响。现有技术中都是采用人工的方式向词典中添加新词。词典中包含单独词,新词也就是新发现的单独词至少有以下三个来源:客户提供的领域内的新词;通过客户提供的语料发现的新词;运营过程中发现的新词。图1是现有技术中一种更新词典的流程图,包括:S11,人工通过阅读发现候选数据串;S12,通过检索判断候选数据串是否包括在已有的词典中;S13,当候选数据串未包括在词典中时,将该候选数据串作为新的单独词添加到已有词典中从而形成新的词典。但是上述人工的工作方式导致词典的维护成本高,效率低,且容易发生遗漏,最终使得新词不能及时添加到词典中。
技术实现思路
本专利技术解决的技术问题是如何降低词典维护成本,提升词典更新效率。为解决上述技术问题,本专利技术实施例提供一种计算机可读存储介质,其上存储有程序,该程序被执行时实现词典更新方法,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。可选地,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。可选地,所述方法还包括:依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典。可选地,所述对所述候选数据串进行判断处理,以发现新词包括:内部判断和/或外部判断;所述内部判断包括:计算候选数据串成为新词的概率特征值,所述候选数据串成为新词的概率特征值在预设范围内时,该候选数据串为新词;所述外部判断包括:计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值,去除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串,剩余的候选数据串为新词。可选地,所述计算候选数据串成为新词的概率特征值包括以下至少一种:计算候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值;计算候选数据串中各个词语数据间的互信息;计算候选数据串的边界词语数据与内侧词语数据的信息熵。可选地,当需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算。可选地,所述计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值包括:计算候选数据串的边界词语数据与外侧词语数据的信息熵。可选地,所述对所述候选数据串进行判断处理,以发现新词依次包括:计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;计算剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;剩余的所述候选数据串作为新词。可选地,所述方法还包括:设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。本专利技术实施例还提供一种计算机系统,具有电子数据处理能力,包括词典更新装置,所述装置包括:预处理单元、分行处理单元、分词处理单元、组合处理单元、新词发现单元以及更新单元;其中:所述预处理单元,适于对接收到的语料进行预处理,以得到文本数据;所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据;所述分词处理单元,适于依照基础词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;所述新词发现单元,适于对所述候选数据串进行判断处理,以发现新词;所述更新单元,适于在发现新词后,所述新词添加至所述基础词典,以更新所述基础词典。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:通过对语料进行预处理、分行处理、分词处理,以得到语料对应基础词典包含的单独词,通过组合处理生成候选数据串,通过对候选数据串判断处理,以发现新词。上述过程实现了对语料的自动处理,从而可以降低词典的更新成本;基于计算机对语料进行处理也可以提升词典更新的效率,避免发生遗漏,保证词典更新的准确性。进一步,需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,通过依次对候选数据串进行判断,判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算,可以减少次序在后的计算范围,从而减少计算量,提升更新效率。进一步,依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典,将未得到新词作为停止词典更新的条件,从而可以对词典进行全面的更新,提升词典的可靠性。此外,通过设定候选数据串的长度范围,以排除长度在所述长度范围之外的相邻词语数据,从而只需对长度在所述长度范围内的相邻词语数据进行概率特征值计算,最终可以进一步减小词典更新的计算量,提升更新效率。附图说明图1是现有技术中一种更新词典的流程图;图2是本专利技术实施例中一种词典更新装置的应用示意图;图3是本专利技术实施例中一种词典更新方法的流程图;图4是本专利技术实施例中一种发现新词步骤的具体实现的流程图;图5是本专利技术实施例中一种词典更新装置的结构示意图;图6是本专利技术实施例中新词发现单元的结构示意图;图7是本专利技术实施例中一种内部判断单元的结构示意图。具体实施方式如前所述,现有技术中都是采用人工的方式向词典中添加新词。通过人工方式添加新词易发生遗漏;由于受到人工处理速度的限制,效率较低;词典的维护成本也被人工成本推高。本专利技术实施例通过计算机对语料进行处理,将语料统一为适于计算机新词发现过程的格式,生成候选数据串,设定合适的条件对候选数据串进行筛选,以发现新词。基于计算机发现新词可以提升词典更新的效率,避免发生遗漏,保证词典更新的准确性。为使本专利技术的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。图2是本专利技术实施例中一种词典更新装置的应用示意图。词典更新装置22本文档来自技高网...

【技术保护点】
1.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被执行时实现词典更新方法,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。

【技术特征摘要】
1.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被执行时实现词典更新方法,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。2.根据权利要求1所述的计算机可读存储介质,其特征在于,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。3.根据权利要求1或2所述的计算机可读存储介质,其特征在于,所述方法还包括:依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典。4.根据权利要求1所述的计算机可读存储介质,其特征在于,所述对所述候选数据串进行判断处理,以发现新词包括:内部判断和/或外部判断;所述内部判断包括:计算候选数据串成为新词的概率特征值,所述候选数据串成为新词的概率特征值在预设范围内时,该候选数据串为新词;所述外部判断包括:计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值,去除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串,剩余的候选数据串为新词。5.根据权利要求4所述的计算机可读存储介质,其特征在于,所述计算候选数据串成为新词的概率特征值包括以下至少一种:计算候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值;计算候选数据串中各个词语数据间的互信息;计算候选数据串的边界词语数据与内侧词语数据的信息熵。6.根据权利要求5所述的计算机可读存储介质,其特征在于,当需计算的所述候选数据串成为新词的...

【专利技术属性】
技术研发人员:朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1