【技术实现步骤摘要】
一种智能问答方法和系统
本专利技术涉及电力信息化管理
,尤其涉及一种智能问答方法和系统。
技术介绍
问答(QuestionAnswering,QA)系统起源于图灵测试,随着时间的发展,问答系统领域也发生了重大变革。按照处理的数据格式不同,问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题答案数据阶段。随着大数据技术和人工智能技术的发展,智能问答系统也在不断发展。目前智能问答系统较多,但缺少行业性的智能问答应用,尤其是发电行业智能问答系统。在网上搜索一个问题,很难得到自己想要的答案,推荐答案精准度差,答案准确性差。随着世界现代化不断的发展对电力能源巨大的供需,使得电力行业的担责更加紧重;具体表现在大容量高参数发电机组不断增多、发电大规模集中并网,电力系统形态与运行特性日趋复杂等等。当前数字化时代高度发展、大数据融合,现实世界与虚拟空间更深层次的交互,数字孪生等技术的出现,迫使发电行业数字化变革已在道路上。随之产生的大量数据,数据量大、杂乱无序、应用率低等造成要实现智能问答,精准给出想要的答案比较困难。因此,发电行业需要一个行业性的、推荐答案精准度高的智能问答解决方案。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种智能问答方法和系统,以解决智能问答行业性应用较少,未有发电行业的智能问答系统的问题。为实现上述目的,本专利技术提供了一种智能问答方法,包括以下步骤:收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、 ...
【技术保护点】
1.一种智能问答方法,其特征在于,包括以下步骤:/n收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书,然后对收集的资料电子版进行整理;/n整理完后,对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取,从word、PDF格式文件提取词图信息,并进行文本结构化处理;/n对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库;/n对于所述词库中的各种内容、词语,利用知识图谱进行关联、串联,形成发电行业知识图谱;/n构建好数据库和知识图谱后,通过多种相似度匹配算法融合,实现智能问答。/n
【技术特征摘要】
1.一种智能问答方法,其特征在于,包括以下步骤:
收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书,然后对收集的资料电子版进行整理;
整理完后,对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取,从word、PDF格式文件提取词图信息,并进行文本结构化处理;
对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库;
对于所述词库中的各种内容、词语,利用知识图谱进行关联、串联,形成发电行业知识图谱;
构建好数据库和知识图谱后,通过多种相似度匹配算法融合,实现智能问答。
2.如权利要求1所述的一种智能问答方法,其特征在于,所述对收集的资料电子版进行整理,具体为:
读取到的资料电子版内容按页存储,去除‘\r\n’符号和空页面,使用正则表达式从文件中名中提取页码;
Excel的sheet名称为页码,行为段落,每行的列文本用‘|’分隔合成,去除空行和空列;
形成结构化数据后将空值替换成空字符,并将每行数据转成json格式一一插入电厂专业数据库。
3.如权利要求1所述的一种智能问答方法,其特征在于,所述对数据库文本内容进行自然语言处理,包括分词处理和增加同义词库、电厂缩略词库、停用词库,具体为:
先将word中的文字放到代码中的三引号字符串中,对该字符串处理去除停用词没有覆盖到的特殊符号,然后将字符串以utf-8编码的方式写到txt;
利用基于Trie树结构进行词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),并采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;
对于未登录词,使用了Viterbi算法的HMM模型,挖掘未登陆词,从而实现结巴分词;
做词性标注,将分词列表转为集合进行去重,最后将词语用拼音排序,得到排序后的词列,数字和英文字符排在前面,截取数字和英文字符列,从原先未转为集合的分词列表中去除这些数字和英文字符(for循环遍历去除),最后进行分词合成,统计合成词的出现次数。
4.如权利要求1所述的一种智能问答方法,其特征在于,所述知识图谱本体采用语义网技术栈的核心技术“WebOntologyLanguage”来构建,结合业务知识按发电行业业务框架构建,并采用聚类、实体匹配算法进行知识融合。
5.如权利要求4所述的一种智能问答方法,其特征在于,所述知识图谱本体,结合业务知识按发电行业业务框架构建,其中所述发电行业业务框架可拓展:选择所属一级系统若没有选择可自行输入进行增加,选择所属二级系统若没有选择可自行输入进行增加,选择...
【专利技术属性】
技术研发人员:葛涛,沈稳,蔡荣亮,张婷婷,潘益伟,余青,王辉,宋宇,吕荣武,
申请(专利权)人:深圳鹏锐信息技术股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。