【技术实现步骤摘要】
一种基于电力本体知识库的电力信息检索方法
本专利技术涉及,具体涉及一种基于电力本体知识库的电力信息检索方法。
技术介绍
大数据时代带来的科技创新对于电力公司这种产生数据量大,数据内涵丰富的企业带来了很大的发展机遇。电力系统领域的非结构数据占比高,这类数据的价值常常不能被显式地表达出来,但是却具有巨大的潜在价值。此外,传统固化的业务查询方式难以响应灵活的数据查询需求。常出现一个急需的业务数据查询,因为系统有的查询不能支持,所以必须等待应用升级或功能完善的情况,影响了决策的及时性,也严重束缚了业务人员对信息的主动查询的需求,影响了业务人员主动灵活分析数据获取价值信息的工作。因此,科学合理地抽取电力非结构化的文本数据信息和挖掘其中深层次的抽象内涵,构建电力本体知识库,对于辅助电力科学研究和指导生产实践具有巨大的实际意义。针对电力领域的文本挖掘与信息抽取,准确识别电力文本中的电力实体,对完成进一步的电力文本任务,比如构建电力专业领域字典、建设电力知识库、挖掘文本信息等,具有基础性的作用。在早期的实体识别研究中,其主要任务是旨 ...
【技术保护点】
1.一种基于电力本体知识库的电力信息检索方法,其特征在于,包括:/n获取电力文本信息,建立电力实体的分类类别,所述分类类别用于描述电力作业的目标;/n将电力文本信息按照预设比例分为训练样本、验证样本和测试样本;/n将训练样本输入Bi-LSTM-CRF模型,对Bi-LSTM-CRF模型进行训练;所述Bi-LSTM-CRF模型包括嵌入层、双向长短时记忆网络层(Bi-LSTM)和条件随机场层(CRF);其中,嵌入层对中文字符进行编码,将文本向量化表示;向长短时记忆网络层(Bi-LSTM)用于提取文本序列的抽象语言特征,包括文本的顺序时序特征、逆序时序特征;条件随机场层(CRF)对 ...
【技术特征摘要】
1.一种基于电力本体知识库的电力信息检索方法,其特征在于,包括:
获取电力文本信息,建立电力实体的分类类别,所述分类类别用于描述电力作业的目标;
将电力文本信息按照预设比例分为训练样本、验证样本和测试样本;
将训练样本输入Bi-LSTM-CRF模型,对Bi-LSTM-CRF模型进行训练;所述Bi-LSTM-CRF模型包括嵌入层、双向长短时记忆网络层(Bi-LSTM)和条件随机场层(CRF);其中,嵌入层对中文字符进行编码,将文本向量化表示;向长短时记忆网络层(Bi-LSTM)用于提取文本序列的抽象语言特征,包括文本的顺序时序特征、逆序时序特征;条件随机场层(CRF)对双向长短时记忆网络层层的输出进行处理;
采用训练后的Bi-LSTM-CRF模型对验证样本进行测试,识别电力文本的电力实体;
将电力文本的电力实体识别结果送入电力本体知识库;所述电力本体知识库包括原始语料、本体、本体关联向量;其中,原始语料表示输入的文本,原始语料经过基于Bi-LSTM-CRF模型识别形成本体,本体关联向量表示原始语料与本体之间的关联关系;
输入检索语句,利用本体最大关联匹配度算法,计算检索语句与本体知识库中知识的相似度;
返回根据检索语句所检索到的实体,以及检索到的原始语料。
2.根据权利要求1所述的基于电力本体知识库的电力信息检索方法,其特征在于,若原始语料中存在实体时,则本体关联向量的值为1,...
【专利技术属性】
技术研发人员:彭泽武,万婵,杨秋勇,梁盈威,吴金铭,王海明,王柳佳,
申请(专利权)人:广东电网有限责任公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。