当前位置: 首页 > 专利查询>同济大学专利>正文

小语种词嵌入模型的生成方法、系统及问答方法和系统技术方案

技术编号:17007488 阅读:35 留言:0更新日期:2018-01-11 03:51
本发明专利技术涉及一种小语种词嵌入模型的生成方法、系统及问答方法和系统。其中小语种词嵌入模型的生成方法,包括:载入英语词嵌入模型;基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型,并将该小语种的词嵌入模型应用之问答系统中。与现有技术相比,本发明专利技术利用已有的英文词嵌入模型数据,和英文与其它小语种之间的对应关系,来产生小语种的词嵌入模型,可以快速建立小语种的词嵌入模型,实现词嵌入模型的迁移。

【技术实现步骤摘要】
小语种词嵌入模型的生成方法、系统及问答方法和系统
本专利技术涉及一种智能问答系统,尤其是涉及一种小语种词嵌入模型的生成方法、系统及问答方法和系统。
技术介绍
问答系统(QuestionAnsweringSystem,QA),又称人机对话系统(Human-MachineConversation,HMC),它是信息检索领域的一种高级形式。对于用户以自然语言形式提出的问题,问答系统能给出简洁、准确的答案,这种答案一般是一小段文本,甚至短语、词汇。问答系统涉及多学科的知识,包含信息技术、人工智能、自然语言处理、知识与数据管理和认知科学。设计问答系统主要是为了回答“WHOdidWHATtoWHOM,WHERE,WHEN,HOWandWHY?”。值得注意的是,这些WH问题却是有难有易,大体可以分成两大类:有些WH问题对应的是实体专名,比如WHO/WHEN/WHERE,回答这些问题相对容易,技术也相对成熟。另一类问题则明显难度高了许多,比如WHAT/HOW/WHY,这一类的问题才是研究问答系统面临的挑战。WHAT类型的问题可以被称为定义问题。这一类问题的特点是问题短小,而任何人或物都处于与外界的多重关系之中。因此解决这一类问题需要用到深度信息抽取的技术,把散落在文档中的关键信息整合起来。HOW类型的问题搜索的是问题的解决方案,而对于同一问题,往往有多种解决方式,因此这一类问题被公认为问答界的难点之一。WHY类型的问题搜索的是一个现象或事物发生的原因。有些原因在文档中是显性表达的,而有些是隐性的,而且几乎所有的原因都不是简单的词汇能够表达清楚的,因此找到这些原因,以合适的方式返回给用户,也是一个很大的难题。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。智能问答系统的准确性、稳定性、鲁棒性以及时间效率等性能决定着这种系统能否广泛地应用于人类生活的各个领域。其中问句的真实意图分析、问句与答案之间的匹配关系判别仍然是制约着自动问答系统性能的两个关键。同时,现有的大量有关问答系统的技术,数据,资料,特别是词嵌入模型数据是针对英文的。其它语言的嵌入模型比较稀少,特别是小语言种类,例如藏语,高加索语、格鲁吉亚语等多语言。这些小语言种类的语言资料相对缺乏,很多情况下无法收集到训练词嵌入模型所需要的大量数据。另外,理解并能使用小语种语言的人员相当稀少,因此提供有效标注的成本会相当高。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种小语种词嵌入模型的生成方法、系统及问答方法和系统。本专利技术的目的可以通过以下技术方案来实现:一种小语种词嵌入模型的生成方法,包括:载入英语词嵌入模型;基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型。一种问答方法,包括:步骤S1:对输入的问句处理得到多个关键词,步骤S2:根据各关键词在知识库中搜索得到多个候选答案;步骤S3:根据各关键词和候选答案之间的相似度,从搜索得到的候选答案中选择做一个作为选中的答案。所述知识库为分类知识库,在步骤S1中,对输入的问句预处理得到多个关键词的同时,生成问句的主题词,并在步骤S2中,在知识库与所述主题词对应分类中搜索得到多个候选答案。所述知识库的创建具体包括:步骤S21:获取文档;步骤S22:对文档执行指代消解;步骤S23:对文档进行分句;步骤S24:对分句进行短文本分类。步骤S31:根据各关键词与各候选答案的之间的相似度计算各候选答案的相似度:其中:simj为第j个候选答案的相似度,ωi为各关键词的权重系数,simij为第i个关键词与第j个候选答案之间的相似度,n为关键词的总个数;S32:根据各各候选答案的相似度,从搜索得到的候选答案中选择做一个作为选中的答案。一种小语种词嵌入模型的生成设备,包括:用于载入英语词嵌入模型的装置;用于基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型的装置,与用于载入英语词嵌入模型的装置连接。一种问答系统,包括:用于对输入的问句处理得到多个关键词的装置;用于根据各关键词在知识库中搜索得到多个候选答案的装置,与所述用于对输入的问句处理得到多个关键词的装置连接;用于根据各关键词和候选答案之间的相似度,从搜索得到的候选答案中选择做一个作为选中的答案的装置,与所述用于根据各关键词在知识库中搜索得到多个候选答案的装置连接。所述知识库为分类知识库,所述用于对输入的问句处理得到多个关键词的装置包括用于生成问句主题词的模块,所述用于根据各关键词在知识库中搜索得到多个候选答案的装置在知识库与所述主题词对应分类中搜索得到多个候选答案。所述用于对输入的问句处理得到多个关键词的装置具体包括:知识库创建装置具体包括:用于获取文档的模块;用于对文档执行指代消解的模块,与所述用于获取文档的模块连接;用于对文档进行分句的模块,与用于对文档执行指代消解的模块连接;用于对分句进行短文本分类的模块,与所述用于对文档进行分句的模块连接。所述用于根据各关键词和候选答案之间的相似度,从搜索得到的候选答案中选择做一个作为选中的答案的装置具体包括:用于根据各关键词与各候选答案的之间的相似度计算各候选答案的相似度的模块,相似度具体为:其中:simj为第j个候选答案的相似度,ωi为各关键词的权重系数,simij为第i个关键词与第j个候选答案之间的相似度,n为关键词的总个数;用于根据各各候选答案的相似度,从搜索得到的候选答案中选择做一个作为选中的答案的模块,与所述用于根据各关键词与各候选答案的之间的相似度计算各候选答案的相似度的模块连接。与现有技术相比,本专利技术具有以下优点:1)利用已有的英文词嵌入模型数据,和英文与其它小语种之间的对应关系,来产生小语种的词嵌入模型,可以快速建立小语种的词嵌入模型,实现词嵌入模型的迁移。2)利用和各关键词之间的相似度来对候选答案进行甄别,具有高准确率。附图说明图1为本专利技术小语种词嵌入模型的生成方法的流程示意图;图2为本专利技术问答方法的主要步骤流程示意图;图3为实施例中问答方法所依据系统的框架图;图4为本专利技术数据预处理阶段的流程图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本专利技术的目的有两个。一个是多种语言特别是小语种的词嵌入模型的产生。另一个是通过用一种改进的基于文本的抽取式问答技术构成限定域智能问答系统。核心是通过英文词嵌入模型和英文小语种之间的翻译材料产生多语言词嵌入模型。并对词嵌入技术的研究、改进,达到能较好的实现问句及答案的语义表示以及问句答案间的语义匹配。进而使智能问答系统实现以下几点:(1)系统可以应对多语言问答(2)系统给出的答案尽可能准确;(3)系统响应时间越小越好;(4)答案简单明了且全面;一种小语种词嵌入模型的生成方法,如图1所示,包括:载入英语词嵌入模型;基于英语与指定小语种的翻译资料和对应关系,根据英语词嵌入模型,建立该小语种的词嵌入模型。以上方法主要利用已有的英文词嵌入模型及英文和多种语言的翻译资料和对应关系来建立多语言的词嵌入模型。即使小语种语言的相关资料很少,本文档来自技高网
...
小语种词嵌入模型的生成方法、系统及问答方法和系统

【技术保护点】
一种小语种词嵌入模型的生成方法,其特征在于,包括:载入英语词嵌入模型;基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型。

【技术特征摘要】
1.一种小语种词嵌入模型的生成方法,其特征在于,包括:载入英语词嵌入模型;基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型。2.一种基于权利要求1所述小语种词嵌入模型的问答方法,其特征在于,包括:步骤S1:对输入的问句处理得到多个关键词,步骤S2:根据各关键词在知识库中搜索得到多个候选答案;步骤S3:根据各关键词和候选答案之间的相似度,从搜索得到的候选答案中选择做一个作为选中的答案。3.根据权利要求2所述的问答方法,其特征在于,所述知识库为分类知识库,在步骤S1中,对输入的问句预处理得到多个关键词的同时,生成问句的主题词,并在步骤S2中,在知识库与所述主题词对应分类中搜索得到多个候选答案。4.根据权利要求2所述的问答方法,其特征在于,所述知识库的创建具体包括:步骤S21:获取文档;步骤S22:对文档执行指代消解;步骤S23:对文档进行分句;步骤S24:对分句进行短文本分类。5.根据权利要求2所述的问答方法,其特征在于,所述步骤S3具体包括:步骤S31:根据各关键词与各候选答案的之间的相似度计算各候选答案的相似度:其中:simj为第j个候选答案的相似度,ωi为各关键词的权重系数,simij为第i个关键词与第j个候选答案之间的相似度,n为关键词的总个数;S32:根据各各候选答案的相似度,从搜索得到的候选答案中选择做一个作为选中的答案。6.一种小语种词嵌入模型的生成设备,其特征在于,包括:用于载入英语词嵌入模型的装置;用于基于英语与指定小语种的翻译资料和对应关系,根据所述英语词嵌入模型,建立该小语种的词嵌入模型的装置,与用于载入英语词嵌入模型的装置连接。7.一种基于权利要求6...

【专利技术属性】
技术研发人员:杨恺陈梦竹赵生捷
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1