一种文本数据标注方法、装置、计算机装置及计算机可读存储介质制造方法及图纸

技术编号:24169056 阅读:20 留言:0更新日期:2020-05-16 02:21
本发明专利技术适用于互联网技术领域,提供了一种文本数据标注方法、装置、计算机装置及计算机可读存储介质,该方法包括:获取含有主宾关键字对的网页文本,将网页文本按照段落结构分段,进行分句处理,得到待处理语句;对待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在至少有一个匹配成功时,将待处理语句作为候选语句,将候选语句存入清单集合;循环遍历清单集合,对所清单集合中的候选语句进行处理,从候选语句中选择满足预设条件的语句作为有效语句,将有效语句存入数据库中;显示有效语句。本发明专利技术提供的文本数据标注方法,可以提高文本数据的词性标注的准确度。

A text data annotation method, device, computer device and computer readable storage medium

【技术实现步骤摘要】
一种文本数据标注方法、装置、计算机装置及计算机可读存储介质
本专利技术属于互联网
,尤其涉及一种文本数据标注方法、装置、计算机装置及计算机可读存储介质。
技术介绍
现有的自然语言处理模型通用性很强,针对性不足,就不同专业领域的文本数据处理,获得的词性标注结果往往不尽如人意,导致实体词性标注不准确,非实体专业词的词性标注与一般名词相混淆。现有技术中,通过使用外部简单的工具修改词库,只能解决部分问题,但是无法从本质上解决文本数据的词性标注不准确的问题。
技术实现思路
本专利技术实施例提供一种文本数据标注方法,旨在解决现有文本数据的词性标注不准确的问题。本专利技术是这样实现的,一种文本数据标注方法,包括:获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句;对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合;循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中,其中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。可选的,所述获取含有预先定义的主宾关键字对的网页文本之前,所述文本数据标注方法包括:从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。可选的,所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。可选的,所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。可选的,所述将所述有效语句存入数据库中,包括以下过程:根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;将所述有效语句通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。本专利技术还提供文本数据标注装置,包括:第一处理模块,用于获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句;匹配模块,用于对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合;第二处理模块,用于循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中,其中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;显示模块,用于显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。可选的,所述文本数据标注装置还包括:获取模块,用于从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。可选的,所述第二处理模块还用于若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。可选的,所述第二处理模块,还用于若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词,若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。可选的,所述第二处理模块包括:第一存入子模块,用于根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;第二存入子模块,用于将所述有效语句中通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。本专利技术还提供一种计算机装置,所本文档来自技高网...

【技术保护点】
1.一种文本数据标注方法,其特征在于,所述文本数据标注方法包括:/n获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句;/n对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合;/n循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中,其中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;/n显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。/n

【技术特征摘要】
1.一种文本数据标注方法,其特征在于,所述文本数据标注方法包括:
获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句;
对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合;
循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中,其中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;
显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。


2.根据权利要求1所述的文本数据标注方法,其特征在于,所述获取含有预先定义的主宾关键字对的网页文本之前,所述文本数据标注方法包括:
从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。


3.根据权利要求1所述的文本数据标注方法,其特征在于,所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:
若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。


4.根据权利要求1所述的文本数据标注方法,其特征在于,所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:
若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。


5.根据权利要求1所述的文本数据标注方法,其特征在于,所述将所述有效语句存入数据库中,包括以下过程:
根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;
将所述有效语句通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。


6.一种文本数据标注装置,其特征在于,所述文本数据标注装置包括:
第一处理模块,用于获取含有预先定义的主宾关键字对的网页文本,将所...

【专利技术属性】
技术研发人员:赫中翮王志超左凌峰何子洋
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1