一种人工智能问答知识库的建立方法及系统技术方案

技术编号:39774903 阅读:27 留言:0更新日期:2023-12-22 02:23
本发明专利技术提供了一种人工智能问答知识库的建立方法及系统,涉及数据处理技术领域,包括:采集人工智能云平台上的输入语句,基于输入语句获得问题文本,将问题文本进行无用字筛除,获得有效文本信息;将有效文本信息进行数字转换,获得有效文本信息中每个字的数值表示,并根据获得的所有数值表示得到有效文本信息中的信息词组;基于所有信息词组获得核心信息词组,基于所有核心信息词组获得多个初始匹配答案;计算输入问题与每个初始匹配答案之间的匹配值,基于多个匹配值获得最佳匹配答案,生成输入问题的人工智能问答知识库

【技术实现步骤摘要】
一种人工智能问答知识库的建立方法及系统


[0001]本专利技术涉及数据处理
,特别涉及一种人工智能问答知识库的建立方法及系统


技术介绍

[0002]目前,人工智能问答知识库的建立基本通过自动或半自动的知识抽取,其基本思想是设计自动或半自动的算法,从自然语言文档中抽取需要的信息构建知识库

目前问答知识库已在保险

电商

银行

零售等多个行业,实现落地应用

人工智能问答知识库的构建可至少节省
2/3
的维护人力,实现效率倍增

[0003]但是,现有的人工智能问答知识库的建立方法及系统只是对接受信息与领域知识数据库中的预置知识进行语义相似度计算,忽略了对接收信息进行进一步处理,且在整个过程中未进行无效信息的滤除,无法更高效

更有针对性地进行人工智能问答知识库的建立

例如公开号为“CN105608218B”、
专利名称为“智能问答知识库的建立方法
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种人工智能问答知识库的建立方法,其特征在于,包括:
S1
:实时采集人工智能云平台上的输入语句,选取输入语句中的输入问题,并获得输入问题对应的问题文本,并将问题文本进行无用字筛除,获得当前时刻人工智能云平台输入问题对应的有效文本信息;
S2
:将有效文本信息进行数字转换,获得有效文本信息中每个字对应的数值表示,并根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组;
S3
:基于有效文本信息中的所有信息词组获得有效文本信息的所有核心信息词组,基于所有核心信息词组与预设百科文库获得多个初始匹配答案;
S4
:基于答案匹配算法获得输入问题与每个初始匹配答案之间的匹配值,基于获得的多个匹配值获得输入问题的最佳匹配答案;
S5
:基于最佳匹配答案生成输入问题的人工智能问答知识库
。2.
根据权利要求1所述的一种人工智能问答知识库的建立方法,其特征在于,
S1
:实时采集人工智能云平台上的输入语句,选取输入语句中的输入问题,并获得输入问题对应的问题文本,并将问题文本进行无用字筛除,获得当前时刻人工智能云平台输入问题对应的有效文本信息,包括:
S101
:实时采集人工智能云平台上的输入语句,并将预设问题标识字库中包含的每个预设问题中包含的所有标识字与输入语句中的对应字进行一致性比对,获得输入语句中的输入问题,并将输入问题在输入语句中的文本作为问题文本;
S102
:基于预设筛除字库对问题文本中的无用字进行筛除,获得当前时刻人工智能云平台输入问题对应的有效文本信息
。3.
根据权利要求1所述的一种人工智能问答知识库的建立方法,其特征在于,
S2
:将有效文本信息进行数字转换,获得有效文本信息中每个字对应的数值表示,并根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组,包括:
S201
:基于输入语句将有效文本信息进行数字转换,获得有效文本信息中每个字对应的数值表示;
S202
:根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组
。4.
根据权利要求3所述的一种人工智能问答知识库的建立方法,其特征在于,
S201
:基于输入语句的信息将有效文本信息进行数字转换,获得有效文本信息中每个字对应的数值表示,包括:
S2011
:获取有效文本信息中每个字在输入语句中的出现次数;
S2022
:将输入语句中的总字数与有效文本信息中每个字在输入语句中的出现的次数进行相除,获得每个字的第一比值,并将获得的第一比值与1的和作为底数为
10
的对数函数的真数部分,求得每个字的第一对数值;
S2023
:获取有效文本信息中每个字在有效文本信息中的出现次数;
S2024
:将有效文本信息中的总字数与有效文本信息中每个字在有效文本信息中的出现的次数进行相除,获得每个字的第二比值,并将获得的第二比值与1的和作为底数为
10
的对数函数的真数部分,求得每个字的第二对数值;
S2025
:将有效文本信息中每个字的第二对数值与第一对数值进行相除,获得有效文本
信息中每个字对应的数值表示
。5.
根据权利要求3所述的一种人工智能问答知识库的建立方法,其特征在于,
S202
:根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组,包括:
S2021
:在有效文本信息中选取出由有效文本信息的部分文本组成的所有字组合,作为预测信息词组,其中,预测信息词组中至少包含两个字;
S2022
:计算每个预测信息词组中每两个字的数值表示之间的差值,将包含差值大于1的两个字的预测信息词组进行删除;
S2023
:将步骤
S2022
删除之后剩余的所有预测信息词组中每两个预测信息词组进行比对,当两个进行比对的预测信息词组中组合元素数较多的预测信息词组包含组合元素数较少的预测信息词组中的所有组合元素时,则将两个进行比对的预测信息词组中组合元素数较多的预测信息词组作为有效文本信息的信息词组,当两个进行比对的预测信息词组的组合元素数相同且对应的两个预测信息词组中的所有组合元素都互相重复时,则将两个进行比对的预测信息词组中任意一个预测信息词组作为有效文本信息中的信息词组
。6.
根据权利要求1所述的一...

【专利技术属性】
技术研发人员:张兵
申请(专利权)人:悦享星光北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1