【技术实现步骤摘要】
一种信号画像构建方法装置、电子设备、存储介质
本专利技术属于计算机
,尤其涉及一种信号画像构建方法及装置、电子设备、存储介质。
技术介绍
网络便捷、丰富了人们的日常生活,但是数据海量化也给情报分析等工作带来了前所未有的变革与挑战。在科技情报分析方面,由于科技情报报文有着数据资源来源繁杂以及情报的敏感性与保密性等诸多因素的制约,科技情报数据资源、情报分析工具、情报应用服务等如何向信息化、智能化发展已成为一个亟待解决的问题。
技术实现思路
本专利技术意在提供一种信号画像构建方法及装置、电子设备、存储介质,能够从非结构化文本中挖掘信息,整合相关数据和资源,构建信号信息画像,实现了科技情报分析工作的信息化、智能化,本专利技术要解决的技术问题通过以下技术方案来实现:本专利技术提供了一种信号画像构建方法,包括:从本地文件存放目录中获取报文文本以及文本类型标识;根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据;对所述文本数据进行分句处理得到多个句子;将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息,同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组;如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息,则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中;如果在信号数据库未搜索到所述句子包含信号的所有关系三元组,则将所述句子包含信号的所有 ...
【技术保护点】
1.一种信号画像构建方法,其特征在于,包括:/n从本地文件存放目录中获取报文文本以及文本类型标识;/n根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据;/n对所述文本数据进行分句处理得到多个句子;/n将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息,同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组;/n如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息,则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中;/n如果在信号数据库未搜索到所述句子包含信号的所有关系三元组,则将所述句子包含信号的所有关系三元组添加到所述信号数据库中;/n根据更新后的所述信号数据库构建信号画像。/n
【技术特征摘要】
1.一种信号画像构建方法,其特征在于,包括:
从本地文件存放目录中获取报文文本以及文本类型标识;
根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据;
对所述文本数据进行分句处理得到多个句子;
将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息,同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组;
如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息,则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中;
如果在信号数据库未搜索到所述句子包含信号的所有关系三元组,则将所述句子包含信号的所有关系三元组添加到所述信号数据库中;
根据更新后的所述信号数据库构建信号画像。
2.根据权利要求1所述的信号画像构建方法,其特征在于,所述根据所述文本类型标识确认对应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括:
根据所述文本类型标识获取文本解析标识;
根据所述文本解析标识确认相应的文本解析工具;
调用相应的所述文本解析工具解析所述报文文本得到文本数据。
3.根据权利要求2所述的信号画像构建方法,其特征在于,所述根据所述文本类型标识确认相应的文本解析工具,并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括:
如果所述文本类型标识为pdf,则利用Pdfminer库解析所述报文文本;
如果所述文本类型标识为docx,则利用Python-docx库解析所述报文文本。
4.根据权利要求1所述的信号画像构建方法,其特征在于,所述对所述文本数据进行分句处理得到多个句子的步骤之前还包括:
对所述文本数据进行数据清洗操作以清除所述文本数据中无意义的词句;
对所述文本数据进行指代消解操作以转换所述文本数据中的代词。
5.根据权利要求1所述的信号画像构建方法,其特征在于,所述信号信息识别模型和所述信号关系提取模型均为深度学习识别模型,所述信号信息识别模型包括Bert-Embedding层和CRF层,所述信...
【专利技术属性】
技术研发人员:岳一峰,任祥辉,余亚玲,刘彬彬,
申请(专利权)人:中国电子科技集团公司第十五研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。