【技术实现步骤摘要】
一种公告内容结构化的方法及相关装置
本专利技术涉及文字处理领域,尤其涉及一种公告内容结构化的方法及相关装置。
技术介绍
银行及一些投资机构经常需要对待投资公司或者已经投资过的公司进行风险监控,一般想要获取目标公司的经营信息都是通过目标公司的网站公告上获取,再通过专门的业务员对公告信息进行整理,由于网站上的公告内容一般都比较多且种类繁杂,导致了人工处理速度慢且容易漏掉内容的特点。
技术实现思路
本专利技术实施例提出一种公告内容结构化的方法及相关装置,用于自动识别企业公告中所包含的有效信息并结构化输出。本专利技术第一方面提出一种公告内容结构化的方法,包括:获取公告内容;识别所述公告内容中的第一类名称信息、第二类名称信息以及第三类名称信息并标记所述第一类名称信息、第二类名称信息以及第三类名称信息的位置信息,所述位置信息用于对所述第一类名称信息、第二类名称信息以及第三类名称信息进行映射;根据所述映射对所述公告内容进行处理,所述处理用于将所述公告内容中的第一类名称信息、第二类名称信息 ...
【技术保护点】
1.一种公告内容结构化的方法,其特征在于,包括:/n获取公告内容;/n识别所述公告内容中的第一类名称信息、第二类名称信息以及第三类名称信息并标记所述第一类名称信息、第二类名称信息以及第三类名称信息的位置信息,所述位置信息用于对所述第一类名称信息、第二类名称信息以及第三类名称信息进行映射;/n根据所述映射对所述公告内容进行处理,所述处理用于将所述公告内容中的第一类名称信息、第二类名称信息以及第三类名称信息进行同化;/n将所述经过处理后的公告内容输入经过预训练的第一模型以及第二模型,所述第一模型用于分析所述公告内容以获得实体信息,所述第二模型用于分析所述公告内容以获得关系信息; ...
【技术特征摘要】
1.一种公告内容结构化的方法,其特征在于,包括:
获取公告内容;
识别所述公告内容中的第一类名称信息、第二类名称信息以及第三类名称信息并标记所述第一类名称信息、第二类名称信息以及第三类名称信息的位置信息,所述位置信息用于对所述第一类名称信息、第二类名称信息以及第三类名称信息进行映射;
根据所述映射对所述公告内容进行处理,所述处理用于将所述公告内容中的第一类名称信息、第二类名称信息以及第三类名称信息进行同化;
将所述经过处理后的公告内容输入经过预训练的第一模型以及第二模型,所述第一模型用于分析所述公告内容以获得实体信息,所述第二模型用于分析所述公告内容以获得关系信息;
获取所述第一模型输出的实体信息以及所述第二模型输出的关系信息,并按照预设规则对所述实体信息与所述关系信息聚合输出。
2.根据权利要求1所述的方法,其特征在于,所述识别所述公告内容中的第一类名称信息包括:
将所述公告内容输入经过预训练的第三模型,所述第三模型用于命名实体识别,以获得所述第一类名称信息。
3.根据权利要求1所述的方法,其特征在于,识别所述公告内容中的第二类名称信息与第三类名称信息包括:
将所述公告内容输入经过预训练的第四模型,所述第四模型用于根据规则对所述公告内容进行内容抽取,以获得所述第二类名称信息与第三类名称信息。
4.根据权利要求1所述的方法,其特征在于,按预设规则对所述公告内容进行处理包括:
根据所述映射将所述第二类名称信息替换为所述第一类名称信息;
删除所述公告内容中的第三类名称信息。
5.根据权利要求4所述的方法,其特征在于,在所述将所述第二类名称信息替换为所述第一类名称信息,删除所述公告内容中的第三类名称信息后,按预设规则对所述公告内容进行处理还包括:
将所述公告内容输入经过预训练的第五模型,所述第五模型用于处理多方关系的句型结构,以去除干扰类关系数据。
6.根据权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:席丽娜,晋耀红,刘大双,
申请(专利权)人:鼎富智能科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。