一种智能问答方法和系统技术方案

技术编号:26376420 阅读:21 留言:0更新日期:2020-11-19 23:45
本发明专利技术公开了一种智能问答方法和系统,其基于电力行业知识图谱创建。电力行业规程规范多,安全性要求高,文档搜索难度大。通过把电力行业知识基于自然语言处理,构建同义词库和缩略词库。按系统、设备等分类框架,利用大数据算法层层分解,实现问题和答案相互构建知识图谱,融合N_gram、Jaccard相似系数、最长公共子序列、simHash、word2vec、余弦相似度从而实现智能问答的方法。帮助电力行业人员实现构建智能问答库,快速精确找到所想要答案,实现智能问答。

【技术实现步骤摘要】
一种智能问答方法和系统
本专利技术涉及电力信息化管理
,尤其涉及一种智能问答方法和系统。
技术介绍
问答(QuestionAnswering,QA)系统起源于图灵测试,随着时间的发展,问答系统领域也发生了重大变革。按照处理的数据格式不同,问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题答案数据阶段。随着大数据技术和人工智能技术的发展,智能问答系统也在不断发展。目前智能问答系统较多,但缺少行业性的智能问答应用,尤其是发电行业智能问答系统。在网上搜索一个问题,很难得到自己想要的答案,推荐答案精准度差,答案准确性差。随着世界现代化不断的发展对电力能源巨大的供需,使得电力行业的担责更加紧重;具体表现在大容量高参数发电机组不断增多、发电大规模集中并网,电力系统形态与运行特性日趋复杂等等。当前数字化时代高度发展、大数据融合,现实世界与虚拟空间更深层次的交互,数字孪生等技术的出现,迫使发电行业数字化变革已在道路上。随之产生的大量数据,数据量大、杂乱无序、应用率低等造成要实现智能问答,精准给出想要的答案比较困难。因此,发电行业需要一个行业性的、推荐答案精准度高的智能问答解决方案。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种智能问答方法和系统,以解决智能问答行业性应用较少,未有发电行业的智能问答系统的问题。为实现上述目的,本专利技术提供了一种智能问答方法,包括以下步骤:收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书,然后对收集的资料电子版进行整理;整理完后,对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取,从word、PDF格式文件提取词图信息,并进行文本结构化处理;对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库;对于所述词库中的各种内容、词语,利用知识图谱进行关联、串联,形成发电行业知识图谱;构建好数据库和知识图谱后,通过多种相似度匹配算法融合,实现智能问答。优选的,所述对收集的资料电子版进行整理,具体为:读取到的资料电子版内容按页存储,去除‘\r\n’符号和空页面,使用正则表达式从文件中名中提取页码;Excel的sheet名称为页码,行为段落,每行的列文本用‘|’分隔合成,去除空行和空列;形成结构化数据后将空值替换成空字符,并将每行数据转成json格式一一插入电厂专业数据库。优选的,所述对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库,具体为:先将word中的文字放到代码中的三引号字符串中,对该字符串处理去除停用词没有覆盖到的特殊符号,然后将字符串以utf-8编码的方式写到txt;利用基于Trie树结构进行词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),并采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,使用了Viterbi算法的HMM模型,挖掘未登陆词,从而实现结巴分词;做词性标注,将分词列表转为集合进行去重,最后将词语用拼音排序,得到排序后的词列,数字和英文字符排在前面,截取数字和英文字符列,从原先未转为集合的分词列表中去除这些数字和英文字符(for循环遍历去除),最后进行分词合成,统计合成词的出现次数。优选的,所述知识图谱本体采用语义网技术栈的核心技术“WebOntologyLanguage”来构建,结合业务知识按发电行业业务框架构建,并采用聚类、实体匹配算法进行知识融合。优选的,所述知识图谱本体,结合业务知识按发电行业业务框架构建,其中所述发电行业业务框架可拓展:选择所属一级系统若没有选择可自行输入进行增加,选择所属二级系统若没有选择可自行输入进行增加,选择所属三级设备若没有选择可自行输入进行增加;选择完上述内容后,对问题进行回答,在文本编辑框输入答案,完成文档内容添加更新。优选的,所述构建好数据库和知识图谱后,通过多种相似度匹配算法融合,实现智能问答,具体为:1)用Jaccard算法计算词频相似度,Jaccard算法jaccardsimilaritycoefficient用于比较样本集之间的相似性和差异性的算法,是衡量两个集合相似度的一种指标,其计算公式如下:其中,表示S1分词后的集合,表示S2分词后的集合,表示为与交集的大小与并集大小的比值,是一种均权的计算相似度的方法,即对计算相似度各个元素的权重都一样,没有侧重点;Jaccard相似系数越相似值越大,越不相似值越小,值在0到1之间;2)用simhash算法计算问题文本相似度,包括分词、hash、加权、合并、降维步骤;3)用最长公共子序列算法计算词凝结度相似度,最长公共子序列即在公共字序列中最长的表示,其计算公式如下:其中,len(LCS)为最长公共子序列长度,min(len(X),len(Y))表示给定序列X和Y的长度中较小的一个序列的长度;4)用word2vec和余弦相似度算法计算词序和语义相似度,先用word2vec计算词向量矩阵,词向量矩阵求该句中词向量的均值作为该句的句向量,进而将词向量转化为句向量,进而采用余弦相似度函数计算问题的句向量相似度,其中余弦相似度函数公式为:其中X∈{x1,x2,x3,…,xn}和Y∈{y1,y2,y3,…,yn},两向量越相似,向量夹角越小,其取值在-1到1之间,其绝对值越大,向量相关性越强;5)综合考虑输入问题的词频、词序、词凝结度、词序、语义的各个方面,进行加权计算。一种智能问答系统,包括:资料收集模块,用于收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书,然后对收集的资料电子版进行整理;文本识别与提取模块,用于整理完后,对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取,从word、PDF格式文件提取词图信息,并进行文本结构化处理;文本处理模块,用于对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库;知识图谱生成模块,用于对于所述词库中的各种内容、词语,利用知识图谱进行关联、串联,形成发电行业知识图谱;智能问答模块,用于构建好数据库和知识图谱后,通过多种相似度匹配算法融合,实现智能问答。本专利技术的有益效果是:本专利技术基于电力行业知识图谱创建,电力行业规程规范多,安全性要求高,文档搜索难度大,通过把电力行业知识基于自然语言处理,构建同义词库和缩略词库。按系统、设备等分类框架,利用大数据算法层层分解,实现问题和答案相互构建知识图谱,融合N_gram、Jaccard相似系数、最长公共子序列、simHash、word2vec、余弦相似度从而实现智能问答的方法。帮助电力行业人员实现构建智能问答库,快速精确找到所想要答案,实现智本文档来自技高网...

【技术保护点】
1.一种智能问答方法,其特征在于,包括以下步骤:/n收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书,然后对收集的资料电子版进行整理;/n整理完后,对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取,从word、PDF格式文件提取词图信息,并进行文本结构化处理;/n对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库;/n对于所述词库中的各种内容、词语,利用知识图谱进行关联、串联,形成发电行业知识图谱;/n构建好数据库和知识图谱后,通过多种相似度匹配算法融合,实现智能问答。/n

【技术特征摘要】
1.一种智能问答方法,其特征在于,包括以下步骤:
收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书,然后对收集的资料电子版进行整理;
整理完后,对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取,从word、PDF格式文件提取词图信息,并进行文本结构化处理;
对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库;
对于所述词库中的各种内容、词语,利用知识图谱进行关联、串联,形成发电行业知识图谱;
构建好数据库和知识图谱后,通过多种相似度匹配算法融合,实现智能问答。


2.如权利要求1所述的一种智能问答方法,其特征在于,所述对收集的资料电子版进行整理,具体为:
读取到的资料电子版内容按页存储,去除‘\r\n’符号和空页面,使用正则表达式从文件中名中提取页码;
Excel的sheet名称为页码,行为段落,每行的列文本用‘|’分隔合成,去除空行和空列;
形成结构化数据后将空值替换成空字符,并将每行数据转成json格式一一插入电厂专业数据库。


3.如权利要求1所述的一种智能问答方法,其特征在于,所述对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库,具体为:
先将word中的文字放到代码中的三引号字符串中,对该字符串处理去除停用词没有覆盖到的特殊符号,然后将字符串以utf-8编码的方式写到txt;
利用基于Trie树结构进行词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),并采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;
对于未登录词,使用了Viterbi算法的HMM模型,挖掘未登陆词,从而实现结巴分词;
做词性标注,将分词列表转为集合进行去重,最后将词语用拼音排序,得到排序后的词列,数字和英文字符排在前面,截取数字和英文字符列,从原先未转为集合的分词列表中去除这些数字和英文字符(for循环遍历去除),最后进行分词合成,统计合成词的出现次数。


4.如权利要求1所述的一种智能问答方法,其特征在于,所述知识图谱本体采用语义网技术栈的核心技术“WebOntologyLanguage”来构建,结合业务知识按发电行业业务框架构建,并采用聚类、实体匹配算法进行知识融合。


5.如权利要求4所述的一种智能问答方法,其特征在于,所述知识图谱本体,结合业务知识按发电行业业务框架构建,其中所述发电行业业务框架可拓展:选择所属一级系统若没有选择可自行输入进行增加,选择所属二级系统若没有选择可自行输入进行增加,选择...

【专利技术属性】
技术研发人员:葛涛沈稳蔡荣亮张婷婷潘益伟余青王辉宋宇吕荣武
申请(专利权)人:深圳鹏锐信息技术股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1