System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息处理,具体涉及一种面向政务问答的多特征融合语义理解方法及装置。
技术介绍
1、目前,随着ai(artificial intelligence,人工智能)技术的发展,问答机器人也得到了广泛的应用,但在有些应用领域,机器人的答复内容质量较低,往往“答非所问”,不能准确理解用户输入语句的含义。比如,政务服务领域涉及职能部门多、业务复杂,对于第一次办理政务事项的人员来说,会通过拨打电话、在线留言、到访窗口等方式进行咨询,详细了解办事地点、所需材料、办事流程等,且政府办事人员不断处理重复事项,工作量巨大。基于当前政务服务现状,部分政府门户网站中已经开始应用问答机器人。
2、如何准确理解用户输入信息,精准定位用户咨询事项,给出高质量的问答,是目前急需解决的一项重要问题。
技术实现思路
1、本专利技术提供一种面向政务问答的多特征融合语义理解方法及装置,以准确理解用户输入信息,精准定位用户咨询事项。
2、为此,本专利技术提供如下技术方案:
3、一种面向政务问答的多特征融合语义理解方法,所述方法包括:
4、获取用户输入的咨询问题;
5、对用户输入的咨询问题进行语法纠错和方言纠错,得到纠错后的文本;
6、将所述文本分别输入一个或多个不同的特征匹配模型,根据各特征匹配模型输出的候选问题构建信息融合三元组,所述信息融合三元组包括:候选问题、候选问题排名、候选问题得分;所述特征匹配模型用于确定与模型输入信息相匹配的候选
7、根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表,得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征;
8、将所述三元组信息、以及所述历史咨询特征和/或所述热点事项特征作为多维融合特征;
9、将所述多维特征输入随机森林模型,得到对应所述咨询问题的语义理解结果。
10、可选地,所述方法还包括:
11、构建知识库;
12、利用所述知识库构建文本匹配数据集;
13、利用所述文本匹配数据集构建所述特征匹配模型。
14、可选地,所述知识库包括:方言库、事项库;
15、所述方言库包括方言及对应的普通话、方言拼音及对应的普通话拼音;
16、所述事项库包括以下信息:主事项、子事项、事项问法、事项相似问法、事项包含实体及其组合实体、事项节点回复方式。
17、可选地,所述利用所述知识库构建文本匹配数据集包括:
18、从所述事项库中提取事项问法、事项相似问法,生成所述匹配问题列表;所述匹配问题列表包括事项问法样本及对应的相似问法样本;
19、通过负样本采样方式得到所述匹配问题列表中各事项问法的非相似问法样本;
20、根据所述事项问法、对应的相似问法样本和非相似问法样本、以及添加的相似标签,生成文本匹配数据集。
21、可选地,所述特征匹配模型包括以下任意一个或多个:向量表示模型、句子模糊匹配模型、关键词组模糊匹配模型、拼音编辑距离模型。
22、可选地,利用所述文本匹配数据集构建所述向量表示模型包括:采用bert-base-chinese模型作为基础模型,采用余弦距离作为损失函数,利用所述文本匹配数据集训练得到基于sentence-bert的向量表示模型。
23、可选地,利用所述文本匹配数据集构建所述句子模糊匹配模型包括:
24、对所述文本匹配数据集中的每条样本的事项问法及相似问法进行模糊匹配,得到模糊匹配的分数;
25、将模糊匹配的分数及所述样本的相似标签作为确定阈值的数据,采用网格搜索方法,以步长为1的方式,遍历模糊匹配的分数,以特定衡量指标作为评价标准;所述特定衡量指标为基于模型准确率和召回率确定的用于评价模型效果的指标;
26、选取特定衡量指标最大值对应的匹配分数作为所述句子模糊匹配模型的阈值。
27、可选地,利用所述文本匹配数据集构建所述关键词组模糊匹配模型包括:
28、对所述文本匹配数据集中的每条样本的事项问法及相似问法提取关键词;
29、将提取的关键词进行模糊匹配,得到模糊匹配的分数;
30、将模糊匹配的分数及所述样本的相似标签作为确定阈值的数据,采用网格搜索方法,以步长为1的方式,遍历模糊匹配的分数,以特定衡量指标作为评价标准;所述特定衡量指标为基于模型准确率和召回率确定的用于评价模型效果的指标;
31、选取特定衡量指标最大值对应的匹配分数作为所述关键词组模糊匹配模型的阈值。
32、可选地,利用所述文本匹配数据集构建所述拼音编辑距离模型包括:
33、对所述文本匹配数据集中的每条样本的问法及相似问法进行拼音转化,得到对应的拼音句子;
34、计算所述拼音句子的编辑距离,将所述编辑距离作为所述样本的分数;
35、将所述样本分数及所述样本的相似标签作为确定阈值的数据,采用网格搜索方法,以步长为1的方式,遍历模糊匹配的分数,以特定衡量指标作为评价标准;所述特定衡量指标为基于模型准确率和召回率确定的用于评价模型效果的指标;
36、选取特定衡量指标最大值对应的匹配分数作为所述拼音编辑距离模型的阈值。
37、可选地,按照以下公式计算所述特定衡量指标:
38、
39、其中,l为特定衡量指标,p为准确率,r为召回率。
40、一种面向政务问答的多特征融合语义理解装置,所述装置包括:
41、接收模块,用于获取用户输入的咨询问题;
42、纠错模块,用于对用户输入的咨询问题进行语法纠错和方言纠错,得到纠错后的文本;
43、语义理解特征确定模块,用于将所述文本分别输入一个或多个不同的特征匹配模型,根据各特征匹配模型输出的候选问题构建信息融合三元组,所述信息融合三元组包括:候选问题、候选问题排名、候选问题得分;
44、访问特征确定模块,用于根据所述候选问题查询用户历史咨询问题列表和/或热点问题列表,得到所述候选问题在所述用户最近一段时间是否咨询该问题的历史咨询特征、和/或所述候选问题在最近一段时间是否被访问的热点事项特征;
45、融合模块,用于将所述三元组信息、以及所述历史咨询特征和/或所述热点事项特征作为多维融合特征;
46、语义理解模块,用于将所述多维特征输入随机森林模型,得到对应所述咨询问题的语义理解结果。
47、可选地,所述装置还包括:
48、知识库构建模块,用于构建知识库,
49、数据集生成模块,用于利用所述知识库构建文本匹配数据集;
50、模型构建模本文档来自技高网...
【技术保护点】
1.一种面向政务问答的多特征融合语义理解方法,其特征在于,所述方法包括:
2.根据权利要求1所述的面向政务问答的多特征融合语义理解方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的面向政务问答的多特征融合语义理解方法,其特征在于,所述知识库包括:方言库、事项库;
4.根据权利要求3所述的面向政务问答的多特征融合语义理解方法,其特征在于,所述利用所述知识库构建文本匹配数据集包括:
5.根据权利要求4所述的面向政务问答的多特征融合语义理解方法,其特征在于,所述特征匹配模型包括以下任意一个或多个:向量表示模型、句子模糊匹配模型、关键词组模糊匹配模型、拼音编辑距离模型。
6.根据权利要求5所述的面向政务问答的多特征融合语义理解方法,其特征在于,利用所述文本匹配数据集构建所述向量表示模型包括:
7.根据权利要求5所述的面向政务问答的多特征融合语义理解方法,其特征在于,利用所述文本匹配数据集构建所述句子模糊匹配模型包括:
8.根据权利要求5所述的面向政务问答的多特征融合语义理解方法,其特征在于,利用
9.根据权利要求5所述的面向政务问答的多特征融合语义理解方法,其特征在于,利用所述文本匹配数据集构建所述拼音编辑距离模型包括:
10.根据权利要求7或8或9所述的面向政务问答的多特征融合语义理解方法,其特征在于,按照以下公式计算所述特定衡量指标:
11.一种面向政务问答的多特征融合语义理解装置,其特征在于,所述装置包括:
12.根据权利要求11所述的面向政务问答的多特征融合语义理解装置,其特征在于,所述装置还包括:
...【技术特征摘要】
1.一种面向政务问答的多特征融合语义理解方法,其特征在于,所述方法包括:
2.根据权利要求1所述的面向政务问答的多特征融合语义理解方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的面向政务问答的多特征融合语义理解方法,其特征在于,所述知识库包括:方言库、事项库;
4.根据权利要求3所述的面向政务问答的多特征融合语义理解方法,其特征在于,所述利用所述知识库构建文本匹配数据集包括:
5.根据权利要求4所述的面向政务问答的多特征融合语义理解方法,其特征在于,所述特征匹配模型包括以下任意一个或多个:向量表示模型、句子模糊匹配模型、关键词组模糊匹配模型、拼音编辑距离模型。
6.根据权利要求5所述的面向政务问答的多特征融合语义理解方法,其特征在于,利用所述文本匹配数据集构建所述向量表示模型包...
【专利技术属性】
技术研发人员:曾伟,苑建坤,高振伟,王胜漪,周桂兰,
申请(专利权)人:中电科大数据研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。