基于迭代的同义词挖掘方法及装置制造方法及图纸

技术编号:14153344 阅读:70 留言:0更新日期:2016-12-11 16:52
本发明专利技术涉及一种基于迭代的同义词挖掘方法及装置,其中,所述方法包括:根据用户输入的用于获取答案的问题语料获取同义语对;根据所述同义语对中词语的一一对应关系获取第一候选同义词组;根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。本发明专利技术根据同义语对中词语的一一对应关系获取第一候选同义词组,以根据第一候选同义词组从更多同义语对中迭代抽取第二候选同义词组,进而更新同义词词典中的对齐结果,不需要基于模板、VSM或语义向量对同义词语进行挖掘,可以有效增加同义词的挖掘数量,进而提升语义匹配的准确率和召回率。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种基于迭代的同义词挖掘方法及装置
技术介绍
随着科技的发展和社会的进步,手机、平板电脑、智能机器人等智能终端日益成为了人们学习和工作中不可缺少的工具。通过问答交互来查找想要的内容是智能终端的重要功能之一。当用户在描述问题时,为了能够将与用户所输入(包括语音方式)query的同义词相匹配的结果也包含在交互反馈中召回,会用到基于同义词的搜请求(query)扩展,即在利用query进行搜索的同时也利用query的同义词进行搜索。为了在智能问答的交互中应用该技术,同义词的挖掘是非常重要的基础工作。现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行同义词挖掘,但这种方式需要对语料库中的词语两两进行计算,效率很低。此外,基于模板的挖掘方式需要人工配置模板,挖掘的同义词准确率低;基于VSM(Vector Space Model,向量空间模型)的挖掘方式前期工作量大,且挖掘结果准确率低;基于语义向量的挖掘方式需要大量数据和人工经验。
技术实现思路
针对现有基于模板、基于VSM或基于语义向量的同义词挖掘方法所存在的上述缺陷,本专利技术提出如下技术方案:一种基于迭代的同义词挖掘方法,包括:根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;根据所述同义语对中词语的一一对应关系获取第一候选同义词组;根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。可选地,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案。可选地,所述将所述问题语料扩展成向量,包括:根据单词-向量word2vec处理技术或hownet词汇知识库将所述问题语料扩展成向量。可选地,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对。可选地,所述根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对,包括:根据所述不同问题语料的重叠字词所占比例、语法结构相似度和/或问题目标分类结果从所述不同问题语料中获取同义语对。可选地,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:对所述用户输入的用于获取答案的问题语料进行模式识别,以根据模式识别的结果将具有逻辑性的不同所述问题语料确定为同义语对。可选地,所述对所述用户输入的用于获取答案的问题语料进行模式识别,还包括:判断所述问题语料是否汇总于一个封闭集合。可选地,所述根据所述第一候选同义词组和所述第二候选同义词组更新词典中同义词的对齐结果,包括:将新产生的同义词对加入所述词典,并为所述同义句对中未对齐的词语构建对齐关系。一种基于迭代的同义词挖掘装置,包括:同义语对获取单元,用于根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;第一词组获取单元,用于根据所述同义语对中词语的一一对应关系获取第一候选同义词组;第二词组获取单元,用于根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;对齐结果更新单元,用于根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。可选地,所述同义语对获取单元进一步用于:将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案;或,根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对;或,对所述用户输入的用于获取答案的问题语料进行模式识别,以根据模式识别的结果将具有逻辑性的不同所述问题语料确定为同义语对。本专利技术的基于迭代的同义词挖掘方法及装置,根据用户输入问题语料获取同义语对,并根据所述同义语对中词语的一一对应关系获取第一候选同义词组,以根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组,进而根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果,不需要基于模板、VSM或语义向量对同义词语进行挖掘,可以有效增加同义词的挖掘数量,进而提升语义匹配的准确率和召回率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一个实施例的基于迭代的同义词挖掘方法的流程示意图;图2为本专利技术一个实施例的基于迭代的同义词挖掘装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术一个实施例的基于迭代的同义词挖掘方法的流程示意图;如图1所示,该方法包括:S1:根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;举例来说,例如用户输入的用于获取答案的问题语料为“北京出租车租赁”、“北京的士租赁”;在此基础上,根据上述用户输入的问题语料获取具有相同语义的同义语对。S2:根据所述同义语对中词语的一一对应关系获取第一候选同义词组;具体地,通过将上述获取的同义语对进行最精确的一对一对齐,即将上述句对进行分词处理后,将句对中的原句和目标句进行对应,并将两侧分别剩余的一个未对齐的词语进行对齐。例如,将上述同义句对中的原句“北京出租车租赁”以及目标句“北京的士租赁”进行分词处理所得结果为“北京/出租车/租赁”、“北京/的士/租赁”;进而,将该原句和目标句进行对应,则两侧分别剩余的一个未对齐的词语为“出租车”和“的士”,将这两个词对齐(即构建对齐关系),以获取第一候选同义词组。可以理解的是,若对同义词的质量要求较高,还可以根据同义词组的对齐频次或抽取上下文优化上述同义词组。S3:根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;可以理解的是,根据上述步骤S2可以确定的第一候选同义词组为“出租车-的士”;因而可根据上述第一候选同一词组从更多同义语对,如“北京出租车租赁”及“北京的士出租”中迭代抽取第二候选同义词组;即根据“出租车-的士”的对应关系对上述同义语对进行分词处理以对应,即可抽取到第二候选同义词组“租赁-出租”。S4:根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。可以理解的是,在每执行一次上述步骤后,根据上述第一候选同义词组和第二候选同义词组的获取结果,对同义词词典中的对齐结果进行更新处理,并可以循环执行上述步骤S2至步骤S4多次,直至不再出现新的对齐结果。本实施例的基于迭代的同义词挖掘方法,根据用户本文档来自技高网...
基于迭代的同义词挖掘方法及装置

【技术保护点】
一种基于迭代的同义词挖掘方法,其特征在于,包括:根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;根据所述同义语对中词语的一一对应关系获取第一候选同义词组;根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。

【技术特征摘要】
1.一种基于迭代的同义词挖掘方法,其特征在于,包括:根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;根据所述同义语对中词语的一一对应关系获取第一候选同义词组;根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。2.根据权利要求1所述的方法,其特征在于,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案。3.根据权利要求2所述的方法,其特征在于,所述将所述问题语料扩展成向量,包括:根据单词-向量word2vec处理技术或hownet词汇知识库将所述问题语料扩展成向量。4.根据权利要求1所述的方法,其特征在于,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对。5.根据权利要求4所述的方法,其特征在于,所述根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对,包括:根据所述不同问题语料的重叠字词所占比例、语法结构相似度和/或问题目标分类结果从所述不同问题语料中获取同义语对。6.根据权利要求1所述的方法,其特征在于,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:对所述用户输入的用于获取答案的问...

【专利技术属性】
技术研发人员:郭祥郭瑞雷宇
申请(专利权)人:北京智能管家科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1