一种实体预标注方法和装置以及设备制造方法及图纸

技术编号:24206658 阅读:65 留言:0更新日期:2020-05-20 14:57
本发明专利技术公开了一种实体预标注方法和装置以及设备。其中,所述方法包括:构建典型的实体标注数据库,和根据该构建的典型的实体标注数据库,对该实体标注数据库中的实体标示实体类别与对应该实体类别的关键词,和根据该标示的实体类别与对应该实体类别的关键词,对该实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型,以及根据该训练得到的实体预标注模型,对待标注实体进行预标注。通过上述方式,能够实现无需人工能够自动对实体进行预标注,自动进行实体预标注时能够覆盖到实体的所有语料和实体类别。

A method, device and equipment of entity pre marking

【技术实现步骤摘要】
一种实体预标注方法和装置以及设备
本专利技术涉及实体标注
,尤其涉及一种实体预标注方法和装置以及设备。
技术介绍
BERT(BidirectionalEncoderRepresentationfromTransformers,变换器的双向编码器表征量)是从2018年开始大火的预训练语言模型,通过预训练大规模语料,学习语言文本中文本表征。NER(NamedEntityRecognition,命名实体识别)又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在对话系统中,命名实体识别作为重要的信息抽取工具,需要抽取特定领域的特定实体类别,因此需要大量的人工标注此类特定领域的实体,人工标注的质量很大程度上决定了模型训练的结果。然而,现有的实体预标注方案,一般是以人工对实体进行预标注,人工成本高,而且人工预标注时很难覆盖到实体的大量的语料和实体类别。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种实体预标注方法和装置以及设备,能够实现无需人工能够自动对实体进行预标注,自动进行实体预标注时能够覆盖到实体的所有语料和实体类别。根据本专利技术的一个方面,提供一种实体预标注方法,包括:构建典型的实体标注数据库;根据所述构建的典型的实体标注数据库,对所述实体标注数据库中的实体标示实体类别与对应所述实体类别的关键词;根据所述标示的实体类别与对应所述实体类别的关键词,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型;根据所述训练得到的实体预标注模型,对待标注实体进行预标注。其中,所述构建典型的实体标注数据库,包括:采用对实体标注抽取重要类别、不同长度文本和常见错别字文本方式,构建典型的实体标注数据库。其中,所述根据所述标示的实体类别与对应所述实体类别的关键词,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型,包括:根据所述标示的实体类别与对应所述实体类别的关键词,结合变换器的双向编码器表征量、卷积神经网络和双向长短时记忆特征融合以及条件随机场方式,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型。其中,在所述根据所述训练得到的实体预标注模型,对待标注实体进行预标注之后,还包括:采用数据扩充的方式,对所述预标注后的实体数据进行优化。根据本专利技术的另一个方面,提供一种实体预标注装置,包括:构建模块、标示模块、训练模块和预标注模块;所述构建模块,用于构建典型的实体标注数据库;所述标示模块,用于根据所述构建的典型的实体标注数据库,对所述实体标注数据库中的实体标示实体类别与对应所述实体类别的关键词;所述训练模块,用于根据所述标示的实体类别与对应所述实体类别的关键词,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型;所述预标注模块,用于根据所述训练得到的实体预标注模型,对待标注实体进行预标注。其中,所述构建模块,具体用于:采用对实体标注抽取重要类别、不同长度文本和常见错别字文本方式,构建典型的实体标注数据库。其中,所述训练模块,具体用于:根据所述标示的实体类别与对应所述实体类别的关键词,结合变换器的双向编码器表征量、卷积神经网络和双向长短时记忆特征融合以及条件随机场方式,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型。其中,所述实体预标注装置,还包括:优化模块;所述优化模块,用于采用数据扩充的方式,对所述预标注后的实体数据进行优化。根据本专利技术的又一个方面,提供一种实体预标注设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的实体预标注方法。根据本专利技术的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的实体预标注方法。可以发现,以上方案,可以构建典型的实体标注数据库,和可以根据该构建的典型的实体标注数据库,对该实体标注数据库中的实体标示实体类别与对应该实体类别的关键词,和可以根据该标示的实体类别与对应该实体类别的关键词,对该实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型,以及可以根据该训练得到的实体预标注模型,对待标注实体进行预标注,能够实现无需人工能够自动对实体进行预标注,自动进行实体预标注时能够覆盖到实体的所有语料和实体类别。进一步的,以上方案,可以采用对实体标注抽取重要类别、不同长度文本和常见错别字文本等方式,构建典型的实体标注数据库,这样的好处是能够实现构建典型的实体标注数据库,能够通过该构建的典型的实体标注数据库,确保实体预标注数据潜在的预标注准确性。进一步的,以上方案,可以根据该标示的实体类别与对应该实体类别的关键词,结合变换器的双向编码器表征量、卷积神经网络和双向长短时记忆特征融合以及条件随机场方式,对该实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型,这样的好处是能够通过该结合的变换器的双向编码器表征量、卷积神经网络和双向长短时记忆特征融合以及条件随机场方式,提高该训练得到的实体预标注模型对实体预标注的准确率。进一步的,以上方案,可以采用数据扩充的方式,对该预标注后的实体数据进行优化,这样的好处是能够实现通过该数据扩充方式提高对该预标注后的实体数据中预标注效果不达标的实体数据的预标注达标效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实体预标注方法一实施例的流程示意图;图2是本专利技术实体预标注方法另一实施例的流程示意图;图3是本专利技术实体预标注装置一实施例的结构示意图;图4是本专利技术实体预标注装置另一实施例的结构示意图;图5是本专利技术实体预标注设备一实施例的结构示意图。具体实施方式下面结合附图和实施例,对本专利技术作进一步的详细描述。特别指出的是,以下实施例仅用于说明本专利技术,但不对本专利技术的范围进行限定。同样的,以下实施例仅为本专利技术的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术提供一种实体预标注方法,能够实现无需人工能够自动对实体进行预标注,自动进行实体预标注时能够覆盖到实体的所有语料和实体类别。请参见图1,图1是本专利技术实体预标注方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本专利技术的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:S101:构建典型的实体标注数据库。...

【技术保护点】
1.一种实体预标注方法,其特征在于,包括:/n构建典型的实体标注数据库;/n根据所述构建的典型的实体标注数据库,对所述实体标注数据库中的实体标示实体类别与对应所述实体类别的关键词;/n根据所述标示的实体类别与对应所述实体类别的关键词,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型;/n根据所述训练得到的实体预标注模型,对待标注实体进行预标注。/n

【技术特征摘要】
1.一种实体预标注方法,其特征在于,包括:
构建典型的实体标注数据库;
根据所述构建的典型的实体标注数据库,对所述实体标注数据库中的实体标示实体类别与对应所述实体类别的关键词;
根据所述标示的实体类别与对应所述实体类别的关键词,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型;
根据所述训练得到的实体预标注模型,对待标注实体进行预标注。


2.如权利要求1所述的实体预标注方法,其特征在于,所述构建典型的实体标注数据库,包括:
采用对实体标注抽取重要类别、不同长度文本和常见错别字文本方式,构建典型的实体标注数据库。


3.如权利要求1所述的实体预标注方法,其特征在于,所述根据所述标示的实体类别与对应所述实体类别的关键词,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型,包括:
根据所述标示的实体类别与对应所述实体类别的关键词,结合变换器的双向编码器表征量、卷积神经网络和双向长短时记忆特征融合以及条件随机场方式,对所述实体标注数据库中的实体进行实体预标注模型训练,训练得到实体预标注模型。


4.如权利要求1所述的实体预标注方法,其特征在于,在所述根据所述训练得到的实体预标注模型,对待标注实体进行预标注之后,还包括:
采用数据扩充的方式,对所述预标注后的实体数据进行优化。


5.一种实体预标注装置,其特征在于,包括:
构建模块、标示模块、训练模块和预标注模块;
所述构建模块,用于构建典型的实体标注数据库;
所述标示模块,用于根据所述构建的典型的实体标注数据库,对所述实体标注...

【专利技术属性】
技术研发人员:李威肖龙源蔡振华李稀敏刘晓葳
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1