一种信号画像构建方法装置、电子设备、存储介质制造方法及图纸

技术编号:29835718 阅读:13 留言:0更新日期:2021-08-27 14:25
本发明专利技术涉及一种信号画像构建方法及装置、电子设备、存储介质,属于计算机技术领域。该方法包括获取报文文本以及文本类型标识;根据文本类型标识确认的文本解析工具解析报文文本得到文本数据;对文本数据进行分句处理得到多个句子;将句子分别输入至信号信息识别模型和信号关系提取模型中得到句子包含信号的信号标签、信号信息及所有关系三元组;如果识别出的信号为新信号,关系为新关系,则更新信号数据库并构建信号画像。本发明专利技术的信号画像构建方法能够从非结构化文本中挖掘信息,整合相关数据和资源,构建信号信息画像,实现了传统的科技情报工作的信息化、智能化,并为科技情报工作者的情报分析工作提供辅助决策能力。

【技术实现步骤摘要】
一种信号画像构建方法装置、电子设备、存储介质
本专利技术属于计算机
,尤其涉及一种信号画像构建方法及装置、电子设备、存储介质。
技术介绍
网络便捷、丰富了人们的日常生活,但是数据海量化也给情报分析等工作带来了前所未有的变革与挑战。在科技情报分析方面,由于科技情报报文有着数据资源来源繁杂以及情报的敏感性与保密性等诸多因素的制约,科技情报数据资源、情报分析工具、情报应用服务等如何向信息化、智能化发展已成为一个亟待解决的问题。
技术实现思路
本专利技术意在提供一种信号画像构建方法及装置、电子设备、存储介质,能够从非结构化文本中挖掘信息,整合相关数据和资源,构建信号信息画像,实现了科技情报分析工作的信息化、智能化,本专利技术要解决的技术问题通过以下技术方案来实现:本专利技术提供了一种信号画像构建方法,包括:从本地文件存放目录中获取报文文本以及文本类型标识;根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据;对所述文本数据进行分句处理得到多个句子;将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息,同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组;如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息,则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中;如果在信号数据库未搜索到所述句子包含信号的所有关系三元组,则将所述句子包含信号的所有关系三元组添加到所述信号数据库中;根据更新后的所述信号数据库构建信号画像。优选地,所述根据所述文本类型标识确认对应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括:根据所述文本类型标识获取文本解析标识;根据所述文本解析标识确认相应的文本解析工具;调用相应的所述文本解析工具解析所述报文文本得到文本数据。优选地,所述根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括:如果所述文本类型标识为pdf,则利用Pdfminer库解析所述报文文本;如果所述文本类型标识为docx,则利用Python-docx库解析所述报文文本。优选地,所述对所述文本数据进行分句处理得到多个句子的步骤之前还包括:对所述文本数据进行数据清洗操作以清除所述文本数据中无意义的词句;对所述文本数据进行指代消解操作以转换所述文本数据中的代词。优选地,所述信号信息识别模型和所述信号关系提取模型均为深度学习识别模型,所述信号信息识别模型包括Bert-Embedding层和CRF层,所述信号关系提取模型包括Bert-Embedding层、CNN层及Self-Attention层。另一方面,本专利技术还提供了一种信号画像构建装置,包括:报文获取模块,被配置为从本地文件存放目录中获取报文文本以及文本类型标识;文本解析模块,被配置为根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据;分句处理模块,被配置为对所述文本数据进行分句处理得到多个句子;识别模型模块,被配置为将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息,同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组;新增判断模块,被配置为如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息,则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中;如果在信号数据库未搜索到所述句子包含信号的所有关系三元组,则将所述句子包含信号的所有关系三元组添加到所述信号数据库中;画像构建模块,被配置为根据更新后的所述信号数据库构建信号画像。优选地,所述文本解析模块包括:解析标识获取单元,被配置为根据所述文本类型标识获取文本解析标识;解析工具确认单元,被配置为根据所述文本解析标识确认相应的文本解析工具;解析单元,被配置为调用相应的所述文本解析工具解析所述报文文本得到文本数据。优选地,所述信号画像构建装置还包括:清洗模块,被配置为对所述文本数据进行数据清洗操作以清除所述文本数据中无意义的词句;指代消解模块,被配置为对所述文本数据进行指代消解操作以转换所述文本数据中的代词。再一方面,本专利技术还提供了一种电子设备,包括:处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述所述的信号画像构建方法。又一方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的信号画像构建方法。本专利技术的信号画像构建方法首先扫描本地文件存放目录以获取报文文本以及文本类型标识,之后利用文本类型标识对应的文本解析工具获取报文文本的文本数据,通过对文本数据进行分句处理得到多个句子,再利用预先训练好的信号信息识别模型和信号关系提取模型分别识别出每个句子中所包含信号的信号标签、信号信息以及所有关系三元组,然后通过在信号数据库中检索判断出识别的信号是否为新信号,信号关系是否为新关系,如果为新信号或新关系则更新到信号数据库,最后根据更新的信号数据库构建信号画像。本专利技术的信号画像构建方法能够从非结构化文本中挖掘信息,整合相关数据和资源,构建信号信息画像,实现了传统的科技情报工作的信息化、智能化,并为科技情报工作者的情报分析工作提供辅助决策能力。附图说明图1为本专利技术的信号画像构建方法的一些实施例的流程示意图;图2为本专利技术的信号画像构建方法的步骤200一些实施例的流程示意图;图3为本专利技术的信号画像构建方法的另一些实施例的流程示意图;图4为本专利技术的信号画像构建装置的一些实施例的结构框图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。参见图1所示,本专利技术实施例提供了一种信号画像构建方法,包括:步骤100:从本地文件存放目录中获取报文文本以及文本类型标识;本实施例中情报工作者将情报报文文本统一放置在约定好的系统目录下,本步骤将自动扫描本地文件存放目录,从中获取报文文本以及文本类型标识。步骤200:根据文本类型标识确认相应的文本解析工具,并利用文本解析工具解析报文文本得到文本数据;本实施例中情报报文文本一般以pdf或word形式(即文本类型标识)存储在存放目录中,针对不同的文本类型标识采用不同的文本解析工具读取文本数据。步骤300:对文本数据进行分句处理得到多个句子;在进行信号识别前需要对文本数据(即获取的原始数据)进行预处理,将文本数据标准化,分句操作是将文本数据分割成多个句子,并以句为单位存储在缓存中,以便于本文档来自技高网...

【技术保护点】
1.一种信号画像构建方法,其特征在于,包括:/n从本地文件存放目录中获取报文文本以及文本类型标识;/n根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据;/n对所述文本数据进行分句处理得到多个句子;/n将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息,同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组;/n如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息,则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中;/n如果在信号数据库未搜索到所述句子包含信号的所有关系三元组,则将所述句子包含信号的所有关系三元组添加到所述信号数据库中;/n根据更新后的所述信号数据库构建信号画像。/n

【技术特征摘要】
1.一种信号画像构建方法,其特征在于,包括:
从本地文件存放目录中获取报文文本以及文本类型标识;
根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据;
对所述文本数据进行分句处理得到多个句子;
将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息,同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组;
如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息,则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中;
如果在信号数据库未搜索到所述句子包含信号的所有关系三元组,则将所述句子包含信号的所有关系三元组添加到所述信号数据库中;
根据更新后的所述信号数据库构建信号画像。


2.根据权利要求1所述的信号画像构建方法,其特征在于,所述根据所述文本类型标识确认对应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括:
根据所述文本类型标识获取文本解析标识;
根据所述文本解析标识确认相应的文本解析工具;
调用相应的所述文本解析工具解析所述报文文本得到文本数据。


3.根据权利要求2所述的信号画像构建方法,其特征在于,所述根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括:
如果所述文本类型标识为pdf,则利用Pdfminer库解析所述报文文本;
如果所述文本类型标识为docx,则利用Python-docx库解析所述报文文本。


4.根据权利要求1所述的信号画像构建方法,其特征在于,所述对所述文本数据进行分句处理得到多个句子的步骤之前还包括:
对所述文本数据进行数据清洗操作以清除所述文本数据中无意义的词句;
对所述文本数据进行指代消解操作以转换所述文本数据中的代词。


5.根据权利要求1所述的信号画像构建方法,其特征在于,所述信号信息识别模型和所述信号关系提取模型均为深度学习识别模型,所述信号信息识别模型包括Bert-Embedding层和CRF层,所述信...

【专利技术属性】
技术研发人员:岳一峰任祥辉余亚玲刘彬彬
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1