【技术实现步骤摘要】
一种文本标注方法、装置、设备及可读存储介质
本申请涉及数据处理
,尤其涉及一种文本标注方法、装置、设备及可读存储介质。
技术介绍
金融债券财务附注数据是发债企业披露的重要财务数据,金融分析师通过附注数据可以清晰地了解发债企业的现状,从而指导金融资本投资。目前,债券财务附注数据包括附注项,每一附注项至少包括人工对披露文件进行标注得到的标注结果,标注结果为与披露文件中的标题对应的预设的标注项,例如,披露文件的附注数据中包括的附注项包括:“应付账款---第7页”,其中,“应收账款”为人工根据披露文件中的具体内容识别出的标题“应付的账款金额”对应的预设的标注项。实际应用中,每个披露文件的附注数据包括大量的附注项,可见,由人工对披露文件进行标注的方法效率低,并且人工标注的过程完全依赖于标注人员的主观经验,标注的结果准确性低,生成的附注数据难以满足数据市场的需求。
技术实现思路
申请人在研究的过程中发现:对于包括多层级的标题的文本,标题所属的分级与标注结果的准确性相关,所以,对于这类文本,识别出标题所属 ...
【技术保护点】
1.一种文本标注方法,其特征在于,包括:/n在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;/n从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;/n按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;/n依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;/n将识别出的各个标题指示的 ...
【技术特征摘要】
1.一种文本标注方法,其特征在于,包括:
在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;
从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;
按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;
依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;
将识别出的各个标题指示的内容进行分词,得到各个所述标题的分词结果,所述标题包括所述上级标题和所述下级标题;
从预设的对应关系中,查询目标分词单元,所述目标分词单元包括与所述标题的分级相同且与所述分词结果相似的分词单元,所述对应关系包括所述分词单元与标注项的对应关系,所述分词单元为样本标题的分词结果;
将所述目标分词单元对应的所述标注项,作为所述标题的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述文本页为文本中的任意一页,所述方法还包括:
如果所述文本中的其它文本页中没有识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的所述标题项的情况下,将所述文本页中的所述标题项,均作为所述上级标题;
如果所述文本中的其它文本页中识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的标题项的情况下,按照其它文本页中识别出的所述上级标题和所述下级标题的区别特征,从所述文本页的所述标题项中,识别所述上级标题和所述下级标题。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
按照所述排序,确定所述上级标题和所述下级标题之间的从属关系;
以预设的数据结构,存储所述从属关系。
4.根据权利要求1所述的方法,其特征在于,所述对应关系包括上级分词单元与标注项的对应关系、以及下级分词单元与标注项的对应关系;所述上级分词单元与所述下级分词单元具有从属关系;
所述从预设的对应关系中,查询与所述标题的分级相同且与所述分词结果相似的分词单元,作为目标分词单元,包括:
从所述上级分词单元中,查询与所述上级标题的分词结果相似的上级分词单元,作为目标上级分词单元;
从隶属于所述目标上级分词单元的下级分词单元中,查询与隶属于所述上级标题的下级标题的分词结果相似的下级分词单元,作为目标下级分词单元。
5.根据权利要求4所述的方法,其特征在于,还包括:
在所述上级标题不存在隶...
【专利技术属性】
技术研发人员:左永忠,刘余海,
申请(专利权)人:上海恒生聚源数据服务有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。