一种智能问答方法和系统技术方案

技术编号：26376420 阅读：26 留言：0更新日期：2020-11-19 23:45

本发明专利技术公开了一种智能问答方法和系统，其基于电力行业知识图谱创建。电力行业规程规范多，安全性要求高，文档搜索难度大。通过把电力行业知识基于自然语言处理，构建同义词库和缩略词库。按系统、设备等分类框架，利用大数据算法层层分解，实现问题和答案相互构建知识图谱，融合N_gram、Jaccard相似系数、最长公共子序列、simHash、word2vec、余弦相似度从而实现智能问答的方法。帮助电力行业人员实现构建智能问答库，快速精确找到所想要答案，实现智能问答。

全部详细技术资料下载

【技术实现步骤摘要】
一种智能问答方法和系统
本专利技术涉及电力信息化管理
，尤其涉及一种智能问答方法和系统。
技术介绍
问答(QuestionAnswering，QA)系统起源于图灵测试，随着时间的发展，问答系统领域也发生了重大变革。按照处理的数据格式不同，问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题答案数据阶段。随着大数据技术和人工智能技术的发展，智能问答系统也在不断发展。目前智能问答系统较多，但缺少行业性的智能问答应用，尤其是发电行业智能问答系统。在网上搜索一个问题，很难得到自己想要的答案，推荐答案精准度差，答案准确性差。随着世界现代化不断的发展对电力能源巨大的供需，使得电力行业的担责更加紧重；具体表现在大容量高参数发电机组不断增多、发电大规模集中并网，电力系统形态与运行特性日趋复杂等等。当前数字化时代高度发展、大数据融合，现实世界与虚拟空间更深层次的交互，数字孪生等技术的出现，迫使发电行业数字化变革已在道路上。随之产生的大量数据，数据量大、杂乱无序、应用率低等造成要实现智能问答，精准给出想要的答案比较困难。<...

【技术保护点】
1.一种智能问答方法，其特征在于，包括以下步骤：/n收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书，然后对收集的资料电子版进行整理；/n整理完后，对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取，从word、PDF格式文件提取词图信息，并进行文本结构化处理；/n对数据库文本内容进行自然语言处理，包括分词处理和增加同义词库、电厂缩略词库、停用词库；/n对于所述词库中的各种内容、词语，利用知识图谱进行关联、串联，形成发电行业知识图谱；/n构建好数据库和知识图谱后，通过多种相似度匹配算法融合，实现智能问答。/n

【技术特征摘要】
1.一种智能问答方法，其特征在于，包括以下步骤：
收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书，然后对收集的资料电子版进行整理；
整理完后，对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取，从word、PDF格式文件提取词图信息，并进行文本结构化处理；
对数据库文本内容进行自然语言处理，包括分词处理和增加同义词库、电厂缩略词库、停用词库；
对于所述词库中的各种内容、词语，利用知识图谱进行关联、串联，形成发电行业知识图谱；
构建好数据库和知识图谱后，通过多种相似度匹配算法融合，实现智能问答。

2.如权利要求1所述的一种智能问答方法，其特征在于，所述对收集的资料电子版进行整理，具体为：
读取到的资料电子版内容按页存储，去除‘\r\n’符号和空页面，使用正则表达式从文件中名中提取页码；
Excel的sheet名称为页码，行为段落，每行的列文本用‘|’分隔合成，去除空行和空列；
形成结构化数据后将空值替换成空字符，并将每行数据转成json格式一一插入电厂专业数据库。

3.如权利要求1所述的一种智能问答方法，其特征在于，所述对数据库文本内容进行自然语言处理，包括分词处理和增加同义词库、电厂缩略词库、停用词库，具体为：
先将word中的文字放到代码中的三引号字符串中，对该字符串处理去除停用词没有覆盖到的特殊符号，然后将字符串以utf-8编码的方式写到txt；
利用基于Trie树结构进行词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，并采用了动态规划查找最大概率路径,找出基于词频的最大切分组合；
对于未登录词，使用了Viterbi算法的HMM模型，挖掘未登陆词，从而实现结巴分词；
做词性标注，将分词列表转为集合进行去重，最后将词语用拼音排序，得到排序后的词列，数字和英文字符排在前面，截取数字和英文字符列，从原先未转为集合的分词列表中去除这些数字和英文字符(for循环遍历去除)，最后进行分词合成，统计合成词的出现次数。

4.如权利要求1所述的一种智能问答方法，其特征在于，所述知识图谱本体采用语义网技术栈的核心技术“WebOntologyLanguage”来构建，结合业务知识按发电行业业务框架构建，并采用聚类、实体匹配算法进行知识融合。

5.如权利要求4所述的一种智能问答方法，其特征在于，所述知识图谱本体，结合业务知识按发电行业业务框架构建，其中所述发电行业业务框架可拓展：选择所属一级系统若没有选择可自行输入进行增加，选择所属二级系统若没有选择可自行输入进行增加，选择...

【专利技术属性】
技术研发人员：葛涛，沈稳，蔡荣亮，张婷婷，潘益伟，余青，王辉，宋宇，吕荣武，
申请(专利权)人：深圳鹏锐信息技术股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人