【技术实现步骤摘要】
文本数据的处理方法、装置以及电子设备
[0001]本公开涉及人工智能
,尤其涉及数据处理、深度学习等
技术介绍
[0002]目前,通常采用序列标注技术对文本数据进行处理。但是,该方法需要使用大量的高质量标注数据对提及识别模型进行训练,而通过人工标注大量的高质量标注数据,则会导致模型开发成本过大。
技术实现思路
[0003]本公开提供了一种文本数据的处理方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种文本数据的处理方法。该方法可以包括:获取文本数据集中待转换的第一文本数据集;将第一文本数据集转换为实体数据集;响应于实体数据集中实体数据的质量评估结果大于质量评估阈值,利用实体数据集对文本数据集中待标注的第二文本数据集进行标注,得到标注数据集,其中,标注数据集包括实体数据集;输出标注数据集,其中,标注数据集用于通过监督训练得到实体识别模型,实体识别模型用于识别待识别文本中的实体数据。
[0005]根据本公开的另一方面,还提供了一种模型的确定方法。该方法可 ...
【技术保护点】
【技术特征摘要】
1.一种文本数据的处理方法,包括:获取文本数据集中待转换的第一文本数据集;将所述第一文本数据集转换为实体数据集;响应于所述实体数据集中实体数据的质量评估结果大于质量评估阈值,利用所述实体数据集对所述文本数据集中待标注的第二文本数据集进行标注,得到标注数据集,其中,所述标注数据集包括所述实体数据集;输出所述标注数据集,其中,所述标注数据集用于通过监督训练得到实体识别模型,所述实体识别模型用于识别待识别文本中的实体数据。2.根据权利要求1所述的方法,其中,将所述第一文本数据集转换为实体数据集包括:基于所述第一文本数据集中出现频次高于第一频次阈值的候选实体数据,确定所述实体数据集。3.根据权利要求2所述的方法,其中,基于所述第一文本数据集中出现频次高于第一频次阈值的候选实体数据,确定所述实体数据集,包括:从所述第一文本数据集中,获取包括所述候选实体数据的目标候选实体数据;基于所述第一文本数据集中出现频次高于第二频次阈值的所述目标候选实体数据,确定所述实体数据集,其中,所述第二频次阈值小于所述第一频次阈值。4.根据权利要求1所述的方法,其中,将所述第一文本数据集转换为实体数据集包括:对所述第一文本数据集进行切词处理,得到词序列;基于所述词序列中与目标词性相匹配的词,确定所述实体数据集。5.根据权利要求4所述的方法,还包括:获取词性标注数据,其中,所述词性标注数据包括通过词性标识进行标注的实体数据;将所述词性标注数据中出现频次大于第三频次阈值的目标词性组合,确定为所述目标词性。6.根据权利要求4所述的方法,其中,基于所述词序列中与目标词性相匹配的词,确定所述实体数据集包括:对所述词序列中与不同所述目标词性相匹配的词进行组合,得到所述实体数据集。7.根据权利要求1所述的方法,将所述第一文本数据集转换为实体数据集包括:对所述第一文本数据集进行切词处理,得到词序列;基于所述词序列中与依存语法关系相匹配的词,确定所述实体数据集。8.根据权利要求7所述的方法,还包括:获取关系标注数据,其中,所述关系标注数据包括通过依存语法关系标识进行标注的实体数据;将所述关系标注数据中出现频次大于第四频次阈值的依存语法关系组合,确定为所述依存语法关系。9.根据权利要求7所述的方法,其中,基于所述词序列中与依存语法关系相匹配的词,确定所述实体数据集包括:对所述词序列中与不同所述依存语法关系相匹配的词进行组合,得到所述实体数据集。10.根据权利要求1所述的方法,其中,利用所述实体数据集对待标注的第二文本数据
集进行标注,得到标注数据集包括:利用所述实体数据集中每个实体数据对...
【专利技术属性】
技术研发人员:杨宝山,王建华,贾桐,冯知凡,崔骁鹏,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。