【技术实现步骤摘要】
工程领域HTML文档的数据标注方法、装置及电子设备
[0001]本申请涉及数据处理领域,具体而言,涉及一种工程领域HTML文档的数据标注方法、装置及电子设备。
技术介绍
[0002]互联网的高速发展导致数据量急剧增加,大数据时代的到来使得信息化水平也在不断提高,为了更加高效地挖掘更有价值且更加准确的信息,自然语言处理(NLP)技术应运而生。
[0003]现有技术中NLP的重要环节中命名实体识别(NER)标注和NER关系标注严重依赖大量人力工作,存在标注效率低的问题。
技术实现思路
[0004]本申请实施例的目的在于提供一种工程领域HTML文档的数据标注方法、装置及电子设备,用以针对工程领域的实体标注及实体间的关系提取,提高数据标注的效率。
[0005]第一方面,本申请实施例提供了一种工程领域HTML文档的数据标注方法,包括:首先,获取待标注数据,对待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得预设目标短语对应的实体标记;其中,待标注数据为HTML文档数据;然后,根据实体标 ...
【技术保护点】
【技术特征摘要】
1.一种工程领域HTML文档的数据标注方法,其特征在于,所述方法,包括:获取待标注数据,对所述待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得所述预设目标短语对应的实体标记;其中,所述待标注数据为HTML文档数据;根据所述实体标记进行偏移计算,获得对应的所述预设目标短语对应的偏移量;其中,所述偏移量是指所述实体标记相对于所述待标注数据的相对位置距离;根据所述偏移量和所述待标注数据的上下文语义关系对所述预设目标短语进行关系匹配,获得所述关系匹配的标注结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得所述预设目标短语对应的实体标记,包括:对所述待标注数据进行分词,获得多个分词,并识别每个分词的属性值;若所述属性值为预设属性值,则确定所述分词为所述预设目标短语;生成所述预设目标短语的实体标记。3.根据权利要求2所述的方法,其特征在于,所述预设属性值包括公司名属性和排名属性;所述根据所述偏移量和所述待标注数据的上下文语义关系对所述预设目标短语进行关系匹配,获得所述关系匹配的标注结果,包括:遍历所述实体标记;若所述实体标记中含有预设关键属性值,并且所述实体标记中含有排名属性和公司名属性,则提取所述排名属性对应的目标排名和所述公司名属性对应的目标公司;根据所述实体标记的偏移量确定所述目标排名和所述目标公司的距离;若所述目标排名和所述目标公司满足所述上下文语义关系,则将所述距离最近的所述目标排名和所述目标公司作为所述关系匹配的标注结果。4.根据权利要求3所述方法,其特征在于,所述上下文语义关系包括表格语义关系;所述根据所述实体标记的偏移量确定所述目标排名和所述目标公司的距离;若所述目标排名和所述目标公司满足所述上下文语义关系,则将所述距离最近的所述目标排名和所述目标公司作为所述关系匹配的标注结果,包括:若所述实体标记存在于表格中,则根据所述实体标记在表格中的相对位置提取所述实体标记中的所述目标排名和所述目标公司;根据所述表格语义关系和所述相对位置的距离最小值,获得所述关系匹配的标注结果。5.根据权利要求1所述的方法,其特征...
【专利技术属性】
技术研发人员:张森,程殊伟,黄学涛,王红莲,赵二华,胡双印,罗峰,谭卓,童雅梅,赖星宇,辛伏炎七妹,何丹,郭宏克,张琴,何瑞景,
申请(专利权)人:基建通三亚国际科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。