【技术实现步骤摘要】
一种电力设备缺陷文本知识图谱更新方法及装置
[0001]本专利技术涉及电力系统
,特别是涉及一种基于文本查错的电力设备缺陷文本知识图谱更新方法及装置。
技术介绍
[0002]电力系统在长期的运行过程中,积累了大量的文本、音频和图像等非结构化数据。非结构化数据挖掘相对困难,准确性也较难得到保障。电力设备缺陷文本是由人工记录的描述电力设备缺陷现象的文本,有别于公共领域的文本,电力设备缺陷文本会涉及较多出现频率不高的需要专业领域知识的专业词汇,且同一指代可能有书面语、口语、简称等多种表述,同时,由于记录人员的习惯和专业素养差异,电力设备缺陷文本经常会出现歧义、指代不清等文本质量问题,这些都会影响电力设备缺陷文本的进一步挖掘分析。
[0003]运用文本挖掘技术从电力设备缺陷文本中挖掘出实用信息,已经成为当前的研究热点之一,目前的研究方法多基于机器学习或者深度学习,其中机器学习的方法是基于词的统计特征对文本进行表示,所选取的特征基本局限于关键词出现与否,或者词的出现频率,对关键词的内在逻辑缺乏考虑;深度学习方法的发展虽然 ...
【技术保护点】
【技术特征摘要】
1.一种电力设备缺陷文本知识图谱更新方法,包括如下步骤:步骤S1,根据缺陷记录中蕴含的实体以及实体间的关系构建电力设备缺陷文本知识图谱;步骤S2,获取待查错的缺陷文本集,基于所述电力设备缺陷文本知识图谱对所述待查错的缺陷文本集进行逐条文本查错,找出所有存在质量问题的文本;步骤S3,根据步骤S2的报错结果,从所述待查错的缺陷文本集中筛选出含有新知识的文本,并将筛选出的含有新知识的文本与所述电力设备缺陷文本知识图谱融合,实现对所述电力设备缺陷文本知识图谱的更新。2.如权利要求1所述的一种电力设备缺陷文本知识图谱更新方法,其特征在于,步骤S1进一步包括:步骤S100,从电力设备缺陷文本语料库中依据事先构建的电力本体字典,抽取实体词汇,并根据预先定义对抽取的实体词汇进行实体词性标注;步骤S101,判断步骤S100抽取的实体词是否属于同义词,若是,则将同义词转化为标准词;步骤S102,识别不同实体词汇之间的关系以及关系的类型;步骤S103,对步骤S102自动抽取出来的关系进行人工确定或修正;步骤S104,从缺陷文本历史语料库中提取的三元组与输变电设备缺陷用语规范中提取的三元组相合并,形成电力设备缺陷文本知识图谱;步骤S105,基于所述电力设备缺陷文本知识图谱对历史缺陷文本集A进行查错,根据未报错文本建立一个历史正确文本集。3.如权利要求2所述的一种电力设备缺陷文本知识图谱更新方法,其特征在于,于步骤S101中,在抽取实体词并定义实体词性之后,则使用word2vec方法将四类实体词分别映射到高维空间用词向量来表示,通过词向量的余弦相似度判断实体词之间的相似性,形成同义词对,之后对同义词对进行审查,定义标准词,将含有相同词汇的同义词对转化为同义词集。4.如权利要求2所述的一种电力设备缺陷文本知识图谱更新方法,其特征在于,步骤S2进一步包括:步骤S200,获取待查错的缺陷文本集中的待查错文本;步骤S201,对所述待查错文本进行分词、词性标注以及同义词替换;步骤S203,利用所述电力设备缺陷文本知识图谱对所述待查错文本进行知识图谱路径查找;步骤S204,根据查找结果判断所述待查错文本是否为存在质量问题的文本,并对存在质量问题的文本提供具体词汇和错误类型作为报错提示。5.如权利要求4所述的一种电力设备缺陷文本知识图谱更新方法...
【专利技术属性】
技术研发人员:史济全,周毅,李维,王健,陈磊,李源,周良才,徐昊,徐泽禹,朱文,范栋琦,吴攀,徐峰,汤一达,
申请(专利权)人:国家电网有限公司华东分部,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。