本申请提供一种工程领域HTML文档的数据标注方法、装置及电子设备,涉及数据处理技术领域。方法包括:获取待标注数据,对所述待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得所述预设目标短语对应的实体标记;根据所述实体标记进行偏移计算,获得对应的所述预设目标短语对应的偏移量;根据所述偏移量和所述待标注数据的上下文语义关系对所述预设目标短语进行关系匹配,获得所述关系匹配的标注结果。装置用于执行上述方法。本申请通过自动识别实体以及计算实体间的关系,获取一种更准确的针对工程领域的实体及实体关系抽取方法,提高了数据标注的效率。提高了数据标注的效率。提高了数据标注的效率。
【技术实现步骤摘要】
工程领域HTML文档的数据标注方法、装置及电子设备
[0001]本申请涉及数据处理领域,具体而言,涉及一种工程领域HTML文档的数据标注方法、装置及电子设备。
技术介绍
[0002]互联网的高速发展导致数据量急剧增加,大数据时代的到来使得信息化水平也在不断提高,为了更加高效地挖掘更有价值且更加准确的信息,自然语言处理(NLP)技术应运而生。
[0003]现有技术中NLP的重要环节中命名实体识别(NER)标注和NER关系标注严重依赖大量人力工作,存在标注效率低的问题。
技术实现思路
[0004]本申请实施例的目的在于提供一种工程领域HTML文档的数据标注方法、装置及电子设备,用以针对工程领域的实体标注及实体间的关系提取,提高数据标注的效率。
[0005]第一方面,本申请实施例提供了一种工程领域HTML文档的数据标注方法,包括:首先,获取待标注数据,对待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得预设目标短语对应的实体标记;其中,待标注数据为HTML文档数据;然后,根据实体标记进行偏移计算,获得对应的预设目标短语对应的偏移量;其中,偏移量是指实体标记相对于待标注数据的相对位置距离;最后,根据偏移量和待标注数据的上下文语义关系对预设目标短语进行关系匹配,获得关系匹配的标注结果。
[0006]本申请实施例的技术方案中,由于获取的待标注数据中除了包含所需的数据外,还可能包含许多无效数据,因此先将需要的数据实体进行标记,再根据偏移量和上下文语义关系获得已经标记的各个实体之间的关系,使得有针对性地提取实体之间的关系,因此提高了数据标注的效率。
[0007]在一些实施例中,对待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得预设目标短语对应的实体标记,包括:对待标注数据进行分词,获得多个分词,并识别每个分词的属性值;若该属性值为预设属性值,则确定分词为预设目标短语;生成预设目标短语的实体标记。
[0008]由于待标注数据中的一句话或者一段话中可能包含所需要的数据,但直接标记一句话或一段话会使得标记对象不准确,因此需要对待标注数据进行分词。除此之外,还需要标记每个分词的属性值,根据属性值判断是否为预设目标短语。在这个过程中,根据每个分词的属性值判断是否为所需的数据,从而剔除不需要进行分析的数据,因此,提高了待分析数据的准确性,进一步提高了数据标注的效率。
[0009]在一些实施例中,预设属性值包括公司名属性和排名属性;根据偏移量和待标注数据的上下文语义关系对所述预设目标短语进行关系匹配,获得关系匹配的标注结果,包括:遍历实体标记;若实体标记中含有预设关键属性值,并且实体标记中含有排名属性和公
司名属性,则提取排名属性对应的目标排名和公司名属性对应的目标公司;根据实体标记的偏移量确定目标排名和目标公司的距离;若目标排名和目标公司满足上下文语义关系,则将距离最近的目标排名和目标公司作为关系匹配的标注结果。
[0010]通过属性值找到公司名属性对应的公司,排名属性对应的排名。在遍历标记后的实体时,根据预设关键属性值再进行一次筛选,只对出现预设关键属性值的实体进行遍历,并且只对出现排名属性和公司名属性的实体标记进行提取,最后根据提取出的目标排名和目标公司的偏移量计算两者之间的距离,将距离最近的且满足上下文语义关系的目标排名和目标公司作为关系匹配的结果。因此,通过预设关键属性值对进行实体标记后的数据再进行一次筛选,进一步剔除无效的数据,起到降噪的作用,从而进一步提高了数据标注的效率。
[0011]在一些实施例中,上下文语义关系包括表格语义关系;根据实体标记的偏移量确定目标排名和目标公司的距离;若目标排名和目标公司满足上下文语义关系,则将距离最近的目标排名和目标公司作为关系匹配的标注结果,包括:若实体标记存在于表格中,则根据实体标记在表格中的相对位置提取实体标记中的目标排名和目标公司;根据表格语义关系和相对位置的距离最小值,获得关系匹配的标注结果。
[0012]由于进行实体标记的数据对象还可能存在于表格中,因此针对表格独有的特征,对表格中的实体标记进行提取。在这个过程中,根据不同类型的数据格式进行相对应的数据提取,进一步提高了数据标注的效率。
[0013]在一些实施例中,在根据偏移量对预设目标短语进行关系匹配,获得关系匹配的标注结果之后,该方法还包括:根据目标工程对应的标段数量,采用预设条件判断标注结果是否需要进行去重操作,若需要,则对标注结果进行去重;其中:预设条件包括:标注结果中与目标排名对应的目标公司的数量大于标段数量。
[0014]在获得标注数据后,由于工程领域存在多标段类型和单标段类型的工程,针对两种不同类型的工程,其最后中标结果也是不同的。比如,单标段类型的工程中每个排名只有一个对应的公司,多标段类型的工程由于包含多个子工程,因此一个排名可能对应多个公司,因此需要根据标注结果判断目标工程的标段数量,从而确定是否需要进行去重。在这个过程中,针对不同的工程类型,采用去重手段获得最后的标注结果,提高了标注结果的精确性,进一步提高了数据标注的效率。
[0015]在一些实施例中,对标注结果进行去重,包括:根据目标排名对应的实体标记的偏移量和目标公司对应的实体标记的偏移量计算目标排名与各个目标公司的距离绝对值;获得距离绝对值的最小值,将不符合最小值对应的关系匹配的标注结果进行去重。
[0016]按照中文的行文习惯,两个有关系的实体在文中的位置大概率是靠得比较近的,因此通过计算目标排名与各个目标公司的距离绝对值来确定最后与目标排名相关的目标公司。去重的操作提高了标注结果的精确性,从而进一步提高了数据标注的效率。
[0017]在一些实施例中,在获取待标注数据,对待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得预设目标短语对应的实体标记之前,该方法还包括:获取web数据,并去除web数据的样式、脚本、注解,并合并行内标签以及同义短语,获得待标注数据。
[0018]对web数据进行处理,剔除web数据中无意义的干扰数据,如样式、脚本、文档源代
码注解等。通过对原始web数据进行处理,保留有参考意义的待标注数据,减少了对无效数据进行遍历的时间,从而进一步提高了数据标注的效率。
[0019]第二方面,本申请实施例提供一种工程领域HTML文档的数据处理装置,包括:标记模块,用于获取待标注数据,对所述待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得所述预设目标短语对应的实体标记;其中,所述待标注数据为HTML文档数据;计算模块,用于根据所述实体标记进行偏移计算,获得对应的所述预设目标短语对应的偏移量;其中,所述偏移量是指所述实体标记相对于所述待标注数据的相对位置距离;匹配模块,用于根据所述偏移量和所述待标注数据的上下文语义关系对所述预设目标短语进行关系匹配,获得所述关系匹配的标注结果。
[0020]通过标记模块对待标注数据中的预设目标短语进行命名实体本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种工程领域HTML文档的数据标注方法,其特征在于,所述方法,包括:获取待标注数据,对所述待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得所述预设目标短语对应的实体标记;其中,所述待标注数据为HTML文档数据;根据所述实体标记进行偏移计算,获得对应的所述预设目标短语对应的偏移量;其中,所述偏移量是指所述实体标记相对于所述待标注数据的相对位置距离;根据所述偏移量和所述待标注数据的上下文语义关系对所述预设目标短语进行关系匹配,获得所述关系匹配的标注结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待标注数据中所包含的目标工程的预设目标短语进行命名实体识别标记,获得所述预设目标短语对应的实体标记,包括:对所述待标注数据进行分词,获得多个分词,并识别每个分词的属性值;若所述属性值为预设属性值,则确定所述分词为所述预设目标短语;生成所述预设目标短语的实体标记。3.根据权利要求2所述的方法,其特征在于,所述预设属性值包括公司名属性和排名属性;所述根据所述偏移量和所述待标注数据的上下文语义关系对所述预设目标短语进行关系匹配,获得所述关系匹配的标注结果,包括:遍历所述实体标记;若所述实体标记中含有预设关键属性值,并且所述实体标记中含有排名属性和公司名属性,则提取所述排名属性对应的目标排名和所述公司名属性对应的目标公司;根据所述实体标记的偏移量确定所述目标排名和所述目标公司的距离;若所述目标排名和所述目标公司满足所述上下文语义关系,则将所述距离最近的所述目标排名和所述目标公司作为所述关系匹配的标注结果。4.根据权利要求3所述方法,其特征在于,所述上下文语义关系包括表格语义关系;所述根据所述实体标记的偏移量确定所述目标排名和所述目标公司的距离;若所述目标排名和所述目标公司满足所述上下文语义关系,则将所述距离最近的所述目标排名和所述目标公司作为所述关系匹配的标注结果,包括:若所述实体标记存在于表格中,则根据所述实体标记在表格中的相对位置提取所述实体标记中的所述目标排名和所述目标公司;根据所述表格语义关系和所述相对位置的距离最小值,获得所述关系匹配的标注结果。5.根据权利要求1所述的方法,其特征...
【专利技术属性】
技术研发人员:张森,程殊伟,黄学涛,王红莲,赵二华,胡双印,罗峰,谭卓,童雅梅,赖星宇,辛伏炎七妹,何丹,郭宏克,张琴,何瑞景,
申请(专利权)人:基建通三亚国际科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。