一种快速领域问答方法及其装置制造方法及图纸

技术编号:26342586 阅读:25 留言:0更新日期:2020-11-13 20:35
本发明专利技术实施例提供了一种领域问答方法及其装置,该方法包括:获取用户问题语句;提取该用户问题语句的关键词组;通过近义词典获取关键词组中的各个关键词的近义词,用每个近义词分别替换用户问题语句中对应的关键词,生成若干扩展问题语句;提取若干扩展问题语句的关键词组,根据关键词组包含的关键词、关键词所属问题子领域,确认各个扩展问题语句匹配的问题子领域;通过问答语料集,确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,根据各个标准问题语句与各个扩展问题语句的文本相似度,确定第一标准问题;根据问答语料集,获取第一标准问题的标准问题答案,以其作为用户问题语句的答案。

A fast domain question answering method and its device

【技术实现步骤摘要】
一种快速领域问答方法及其装置
本专利技术涉及智能问答
,尤其涉及一种快速领域问答方法及其装置。
技术介绍
对于一些领域内的知识问答,一般都是通过技术文档或技术人员在线支持的方式进行,即通过提供可在线预览或可下载的技术文档,或者通过创建QQ群、微信群等方式和用户对接,也有一些通过邮箱或提交工单的方式进行用户的问题收集和反馈,但交互效率会比较差,一般用于bug收集和特种操作,不太适用于通常情况下的知识问答。目前市面上也存在一些相对成熟的问答系统,比如各种常见的智能客服和智能机器人等,较常见的形式是通过递进问询的方式进行,比如先给几个选项,然后选择对应的选项后,再依次抛出选项内的问题,直到范围收敛到答案域,随即给出答案或建议等。技术文档通常存在以下一些问题,一是检索不方便,二是答案匹配度可能不佳,且难以进行有效的筛选和排序。技术人员实时在线支持又比较耗时耗力,特别是当用户量较大时,需要的人员配备也就越多,而用户问题中又包含大量的相似问题,一定程度上加剧了人力等资源浪费。此外,现有的一些问答系统,搭建起来难度较大,一般都需要大量的语料支持及规则模板设置,其通过训练语义理解模型或者通过多轮问询的手段去实现智能问答,需要投入较高的人力和时间,对于语料集较小或者资源不充沛的情况,难免有些许巧妇难为无米之炊的无奈。因此,需要一种新的领域内知识问答方法。
技术实现思路
本专利技术的实施例提供了一种快速的领域问答方法和装置,是通过近义映射加排列组合的进行问题域扩展、通过问题子域占比进行匹配的问题域压缩及利用文本相似度算法进行匹配度评估,该方法不依赖大的语料集进行模型训练,也不需要定制大量的规则模板,即可实现快速的问答匹配。采用该方法和装置,可以解决了现有主流的远程备份方法中软件部署复杂、跨平台不友好、操作和配置不灵活的问题。本专利技术为解决上述技术问题采用的技术方案为,一方面提供一种领域问答方法,所述方法包括:获取用户问题语句;提取该用户问题语句的关键词组;所述关键词组包含该用户问题语句的若干关键词;通过近义词典获取关键词组中的各个关键词的近义词,用每个所述近义词分别替换用户问题语句中对应的关键词,生成若干扩展问题语句;所述近义词典包含关键词、关键词的近义词、关键词所属问题子领域;提取所述若干扩展问题语句的关键词组,根据所述关键词组包含的关键词、以及关键词所属问题子领域,确认各个扩展问题语句匹配的问题子领域;通过问答语料集,确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,与各个扩展问题语句的文本相似度,确定第一标准问题;所述问答语料集包括若干条问答语料,每条问答语料至少包括标准问题语句、标准问题答案和问题子领域;根据问答语料集,获取第一标准问题的标准问题答案,以其作为用户问题语句的答案。优选地,提取该用户问题语句的关键词组,包括:利用用户自定义字典对用户问题语句分词、去停用词,获取其关键词组。优选地,通过近义词典获取关键词组中的各个关键词的近义词,包括:在近义词典包含的关键词以及关键词的近义词中,查找所述关键词组中的每个关键词,获取其近义词;优选地,根据所述关键词组包含的关键词、以及关键词所属问题子领域,确认各个扩展问题语句匹配的问题子领域,包括:根据每个扩展问题语句的关键词组,以及关键词组包含的各关键词所属问题子领域,确定每个扩展问题语句所属的若干问题子领域、以及各问题子领域所占比重;根据所述各问题子领域所占比重,确定每个扩展问题语句匹配的问题子领域。具体地,根据所述各问题子领域所占比重,确定每个扩展问题语句匹配的问题子领域,包括:对每个扩展问题语句,将其所属的各个问题子领域按其所占比重排序;对每个扩展问题语句,将其与所述排序中次序最前的问题子领域相匹配;若所述次序最前的问题子领域超过一个,则将其与每个次序最前的问题子领域均相匹配;所述次序最前的问题子领域超过一个,包括,所述排序中居前的若干问题子领域所占比重相等,或所述排序中居前的若干问题子领域之间的比重差小于预定的数值。优选地,根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,与各个扩展问题语句的文本相似度,确定第一标准问题,包括:结合杰卡德相似度算法和文本编辑距离,确认所述文本相似度。优选地,根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,与各个扩展问题语句的文本相似度,确定第一标准问题,包括:将与各个扩展问题语句的文本相似度满足预定阈值的各个标准问题语句,按文本相似度大小进行排序,以排序最前的标准问题语句为第一标准问题。具体地,所述领域问答方法,还包括:若所述各个标准问题语句与扩展问题语句的文本相似度均达不到预定阈值,则结束问答。另一方面,提供一种领域问答装置,所述装置包括:用户问题获取单元,配置为获取用户问题语句;关键词组提取单元,配置为提取该用户问题语句的关键词组;所述关键词组包含该用户问题语句的若干关键词;扩展问题单元,配置为通过近义词典获取关键词组中的各个关键词的近义词,用每个所述近义词分别替换用户问题语句中对应的关键词,生成若干扩展问题语句;所述近义词典包含关键词、关键词的近义词、关键词所属问题子领域;问题子领域匹配单元,配置为提取所述若干扩展问题语句的关键词组,根据所述关键词组包含的关键词、以及关键词所属问题子领域,确认各个扩展问题语句匹配的问题子领域;第一标准问题确定单元,配置为通过问答语料集,确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,与各个扩展问题语句的文本相似度,确定第一标准问题啊;所述问答语料集包括若干条问答语料,每条问答语料至少包括标准问题语句、标准问题答案和问题子领域;用户答案确定单元,配置为根据问答语料集,获取第一标准问题的标准问题答案,以其作为用户问题语句的答案。第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面所述的方法。附图说明为了更清楚说明本专利技术实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种领域问答方法的流程图;图2为本专利技术实施例提供的一种领域问答装置的结构图;具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有本文档来自技高网...

【技术保护点】
1.一种领域问答方法,所述方法包括:/n获取用户问题语句;/n提取该用户问题语句的关键词组;所述关键词组包含该用户问题语句的若干关键词;/n通过近义词典获取关键词组中的各个关键词的近义词,用每个所述近义词分别替换用户问题语句中对应的关键词,生成若干扩展问题语句;所述近义词典包含关键词、关键词的近义词、关键词所属问题子领域;/n提取所述若干扩展问题语句的关键词组,根据所述关键词组包含的关键词、以及关键词所属问题子领域,确认各个扩展问题语句匹配的问题子领域;/n通过问答语料集,确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,与各个扩展问题语句的文本相似度,确定第一标准问题;所述问答语料集包括若干条问答语料,每条问答语料至少包括标准问题语句、标准问题答案和问题子领域;/n根据问答语料集,获取第一标准问题的标准问题答案,以其作为用户问题语句的答案。/n

【技术特征摘要】
1.一种领域问答方法,所述方法包括:
获取用户问题语句;
提取该用户问题语句的关键词组;所述关键词组包含该用户问题语句的若干关键词;
通过近义词典获取关键词组中的各个关键词的近义词,用每个所述近义词分别替换用户问题语句中对应的关键词,生成若干扩展问题语句;所述近义词典包含关键词、关键词的近义词、关键词所属问题子领域;
提取所述若干扩展问题语句的关键词组,根据所述关键词组包含的关键词、以及关键词所属问题子领域,确认各个扩展问题语句匹配的问题子领域;
通过问答语料集,确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句,与各个扩展问题语句的文本相似度,确定第一标准问题;所述问答语料集包括若干条问答语料,每条问答语料至少包括标准问题语句、标准问题答案和问题子领域;
根据问答语料集,获取第一标准问题的标准问题答案,以其作为用户问题语句的答案。


2.根据权利要求1所述的方法,其中,提取该用户问题语句的关键词组,包括:
利用用户自定义字典对用户问题语句分词、去停用词,获取其关键词组。


3.根据权利要求1所述的方法,通过近义词典获取关键词组中的各个关键词的近义词,包括:
在近义词典包含的关键词以及关键词的近义词中,查找所述关键词组中的每个关键词,获取其近义词。


4.根据权利要求1所述的方法,其中,根据所述关键词组包含的关键词、以及关键词所属问题子领域,确认各个扩展问题语句匹配的问题子领域,包括:
根据每个扩展问题语句的关键词组,以及关键词组包含的各关键词所属问题子领域,确定每个扩展问题语句所属的若干问题子领域、以及各问题子领域所占比重;
根据所述各问题子领域所占比重,确定每个扩展问题语句匹配的问题子领域。


5.根据权利要求4所述的方法,其中,根据所述各问题子领域所占比重,确定每个扩展问题语句匹配的问题子领域,包括:
对每个扩展问题语句,将其所属的各个问题子领域按其所占比重排序;
对每个扩展问题语句,将其与所述排序中次序最前的问题子领域相匹配;若所述次序最前的问题子领域超过一个,则将其与每个次序最前的问题子领域均相匹配;所述次序最前的问题子领域超过一...

【专利技术属性】
技术研发人员:李欢欢陈亚萍
申请(专利权)人:杭州东方通信软件技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1