文本数据的处理方法、装置以及电子设备制造方法及图纸

技术编号:37469344 阅读:10 留言:0更新日期:2023-05-06 09:47
本公开提供了一种文本数据的处理方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及数据处理、深度学习等技术领域。具体实现方案为:获取文本数据集中待转换的第一文本数据集;将第一文本数据集转换为实体数据集;响应于实体数据集中实体数据的质量评估结果大于质量评估阈值,利用实体数据集对文本数据集中待标注的第二文本数据集进行标注,得到标注数据集;输出标注数据集。输出标注数据集。输出标注数据集。

【技术实现步骤摘要】
文本数据的处理方法、装置以及电子设备


[0001]本公开涉及人工智能
,尤其涉及数据处理、深度学习等


技术介绍

[0002]目前,通常采用序列标注技术对文本数据进行处理。但是,该方法需要使用大量的高质量标注数据对提及识别模型进行训练,而通过人工标注大量的高质量标注数据,则会导致模型开发成本过大。

技术实现思路

[0003]本公开提供了一种文本数据的处理方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种文本数据的处理方法。该方法可以包括:获取文本数据集中待转换的第一文本数据集;将第一文本数据集转换为实体数据集;响应于实体数据集中实体数据的质量评估结果大于质量评估阈值,利用实体数据集对文本数据集中待标注的第二文本数据集进行标注,得到标注数据集,其中,标注数据集包括实体数据集;输出标注数据集,其中,标注数据集用于通过监督训练得到实体识别模型,实体识别模型用于识别待识别文本中的实体数据。
[0005]根据本公开的另一方面,还提供了一种模型的确定方法。该方法可以包括:获取标注数据集,其中,标注数据集为利用实体数据集对文本数据集中待标注的文本数据集进行标注而得到,且包括实体数据集,实体数据集中实体数据的质量评估结果大于质量评估阈值,实体数据集由文本数据集中待转换的文本数据集转换得到;基于标注数据集进行监督训练,得到实体识别模型,其中,实体识别模型用于识别待识别文本中的实体数据。
[0006]根据本公开的一方面,提供了一种文本数据的处理装置。该装置可以包括:第一获取单元,用于获取文本数据集中待转换的第一文本数据集;转换单元,用于将第一文本数据集转换为实体数据集;标注单元,用于响应于实体数据集中实体数据的质量评估结果大于质量评估阈值,利用实体数据集对文本数据集中待标注的第二文本数据集进行标注,得到标注数据集,其中,标注数据集包括实体数据集;输出单元,用于输出标注数据集,其中,标注数据集用于通过监督训练得到实体识别模型,实体识别模型用于识别待识别文本中的实体数据。
[0007]根据本公开的一方面,提供了一种模型的确定装置。该装置可以包括:第二获取单元,用于获取标注数据集,其中,标注数据集为利用实体数据集对文本数据集中待标注的文本数据集进行标注而得到,且包括实体数据集,实体数据集中实体数据的质量评估结果大于质量评估阈值,实体数据集由文本数据集中待转换的文本数据集转换得到;训练单元,用于基于标注数据集进行监督训练,得到实体识别模型,其中,实体识别模型用于识别待识别文本中的实体数据。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指
令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的文本数据的处理方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例的文本数据的处理方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开实施例的文本数据的处理方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开实施例的一种文本数据的处理方法的流程图;
[0014]图2(a)是根据本公开实施例的一种模型的确定方法的流程图;
[0015]图2(b)是根据本公开实施例的一种用于执行模型的确定方法的计算机产品的示意图;
[0016]图2(c)是根据本公开实施例的一种用于执行模型的确定方法的人机交互操作界面的示意图;
[0017]图3是根据本公开实施例的一种半监督的提及挖掘系统的示意图;
[0018]图4是根据本公开实施例的一种提及质量评估模型的模型框架的示意图;
[0019]图5是根据本公开实施例的一种文本数据的处理装置的示意图;
[0020]图6是根据本公开实施例的一种模型的确定装置的示意图;
[0021]图7是根据本公开实施例的一种文本数据的处理方法的电子设备的示意图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]下面对本公开实施例的一种文本数据的处理方法进行介绍。
[0024]图1是根据本公开实施例的一种文本数据的处理方法的流程图,如图1所示,该方法可以包括以下步骤:
[0025]步骤S102,获取文本数据集中待转换的第一文本数据集。
[0026]在本公开上述步骤S102提供的技术方案中,上述文本数据集可以包括企业内部生产的文档数据和企业内部的资料文档数据,例如,文本数据集可以包括采购单据、行业报告、商务见附件、销售合同、雇佣协议、商业发票、个人简历等。文本数据集包括第一文本数据集,该第一文本数据集可以为文本数据集中待转换的文本数据集合。
[0027]需要说明的是,上述文本数据集中的文本类型仅为本专利技术实施例的一种举例说明,不对文本数据集中的文本类型进行具体限定,任何文本数据集中的文本均在本公开实施例的保护范围内,此处不一一列举。
[0028]在该实施例中,可以获取文本数据集中待转换的第一文本数据集,其中,第一文本数据集可以为待挖掘的文本数据集合。
[0029]步骤S104,将第一文本数据集转换为实体数据集。
[0030]在本公开上述步骤S104提供的技术方案中,在获取文本数据集中待转换的第一文本数据集之后,将第一文本数据集转换为实体数据集,该实体数据集可以为挖掘到的提及(Mention)数据集,该提及数据集可以包括词或短语,其中,提及可以被定义为自然语言文本中对实体(Entity)的引用或自然文本中表达实体的语言片段,该实体可以是命名(Named)实体、名义(Nominal)实体或代词(Pronominal)实体,此处不做具体限定。
[0031]在该实施例中,在实现将第一文本数据集转换为实体数据集时,可以通过无监督挖掘方法或半监督挖掘方法,将第一文本数据集转换为实体数据集,其中,无监督挖掘方法可以为高频共现短语挖掘,无监督挖掘方法可以为词性模板挖掘和依存关系模板挖掘,实体数据集可以用于信息提取、检索、分类建模、主题分析等任务,此处不做具体限定。
[0032]举例而言,在将第一文本数据集转换为实体数据集时,可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的处理方法,包括:获取文本数据集中待转换的第一文本数据集;将所述第一文本数据集转换为实体数据集;响应于所述实体数据集中实体数据的质量评估结果大于质量评估阈值,利用所述实体数据集对所述文本数据集中待标注的第二文本数据集进行标注,得到标注数据集,其中,所述标注数据集包括所述实体数据集;输出所述标注数据集,其中,所述标注数据集用于通过监督训练得到实体识别模型,所述实体识别模型用于识别待识别文本中的实体数据。2.根据权利要求1所述的方法,其中,将所述第一文本数据集转换为实体数据集包括:基于所述第一文本数据集中出现频次高于第一频次阈值的候选实体数据,确定所述实体数据集。3.根据权利要求2所述的方法,其中,基于所述第一文本数据集中出现频次高于第一频次阈值的候选实体数据,确定所述实体数据集,包括:从所述第一文本数据集中,获取包括所述候选实体数据的目标候选实体数据;基于所述第一文本数据集中出现频次高于第二频次阈值的所述目标候选实体数据,确定所述实体数据集,其中,所述第二频次阈值小于所述第一频次阈值。4.根据权利要求1所述的方法,其中,将所述第一文本数据集转换为实体数据集包括:对所述第一文本数据集进行切词处理,得到词序列;基于所述词序列中与目标词性相匹配的词,确定所述实体数据集。5.根据权利要求4所述的方法,还包括:获取词性标注数据,其中,所述词性标注数据包括通过词性标识进行标注的实体数据;将所述词性标注数据中出现频次大于第三频次阈值的目标词性组合,确定为所述目标词性。6.根据权利要求4所述的方法,其中,基于所述词序列中与目标词性相匹配的词,确定所述实体数据集包括:对所述词序列中与不同所述目标词性相匹配的词进行组合,得到所述实体数据集。7.根据权利要求1所述的方法,将所述第一文本数据集转换为实体数据集包括:对所述第一文本数据集进行切词处理,得到词序列;基于所述词序列中与依存语法关系相匹配的词,确定所述实体数据集。8.根据权利要求7所述的方法,还包括:获取关系标注数据,其中,所述关系标注数据包括通过依存语法关系标识进行标注的实体数据;将所述关系标注数据中出现频次大于第四频次阈值的依存语法关系组合,确定为所述依存语法关系。9.根据权利要求7所述的方法,其中,基于所述词序列中与依存语法关系相匹配的词,确定所述实体数据集包括:对所述词序列中与不同所述依存语法关系相匹配的词进行组合,得到所述实体数据集。10.根据权利要求1所述的方法,其中,利用所述实体数据集对待标注的第二文本数据
集进行标注,得到标注数据集包括:利用所述实体数据集中每个实体数据对...

【专利技术属性】
技术研发人员:杨宝山王建华贾桐冯知凡崔骁鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1