文本处理方法以及装置制造方法及图纸

技术编号:30335831 阅读:15 留言:0更新日期:2021-10-10 01:05
本说明书实施例提供文本处理方法以及装置,其中所述文本处理方法包括:接收待处理文本,将所述待处理文本输入实体识别模型,获得带有实体识别标签的候选文本;将所述带有实体识别标签的候选文本输入实体判别模型,获得所述候选文本的候选实体,并基于所述候选实体确定备选文本;基于所述候选实体与所述备选文本构建关系知识图,基于所述关系知识图计算每个关系知识图节点之间的相似度,确定目标实体关系;基于所述目标实体关系在预设知识库中,确定目标实体文本。定目标实体文本。定目标实体文本。

【技术实现步骤摘要】
文本处理方法以及装置


[0001]本说明书实施例涉及计算机
,特别涉及一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到社会的各个领域,其中,在理赔项目中,记录人员通过面访与用户沟通时,笔录问询环节将花费大量时间,记录人员将收集到的信息需要反复向用户确认后,再手工填写到理赔作业系统的表单中,不仅使得人工记录成本较高,处理项目的耗时也较长,极大影响项目处理效率。

技术实现思路

[0003]有鉴于此,本说明书施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
[0005]接收待处理文本,将所述待处理文本输入实体识别模型,获得带有实体识别标签的候选文本;
[0006]将所述带有实体识别标签的候选文本输入实体判别模型,获得所述候选文本的候选实体,并基于所述候选实体确定备选文本;
[0007]基于所述候选实体与所述备选文本构建关系知识图,基于所述关系知识图计算每个关系知识图节点之间的相似度,确定目标实体关系;
[0008]基于所述目标实体关系在预设知识库中,确定目标实体文本。
[0009]根据本说明书实施例的第二方面,提供了一种文本处理装置,包括:
[0010]实体识别模块,被配置为接收待处理文本,将所述待处理文本输入实体识别模型,获得带有实体识别标签的候选文本;
[0011]实体判别模块,被配置为将所述带有实体识别标签的候选文本输入实体判别模型,获得所述候选文本的候选实体,并基于所述候选实体确定备选文本;
[0012]实体关系确定模块,被配置为基于所述候选实体与所述备选文本构建关系知识图,基于所述关系知识图计算每个关系知识图节点之间的相似度,确定目标实体关系;
[0013]目标实体确定模块,被配置为基于所述目标实体关系在预设知识库中,确定目标实体文本。
[0014]根据本说明书实施例的第三方面,提供了一种计算设备,包括:
[0015]存储器和处理器;
[0016]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行
指令,其中,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
[0017]根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述文本处理方法的步骤。
[0018]本说明书一个实施例通过接收待处理文本,将所述待处理文本输入实体识别模型,获得带有实体识别标签的候选文本;将所述带有实体识别标签的候选文本输入实体判别模型,获得所述候选文本的候选实体,并基于所述候选实体确定备选文本;基于所述候选实体与所述备选文本构建关系知识图,基于所述关系知识图计算每个关系知识图节点之间的相似度,确定目标实体关系;基于所述目标实体关系在预设知识库中,确定目标实体文本。
[0019]具体的,通过将待处理文本输入实体识别模型确定候选文本,并将候选文本输入实体判别模型中确定候选实体,以增加待处理文本中实体的相似性高的实体,通过构建关系知识图在该知识图中确定目标实体关系,进而实现了解决语音识别错误与长文本依赖的问题,将处理后的关键词信息回显到问询笔录的表单浮窗,减少手工填写的成本,提升整体视频面访的效率。
附图说明
[0020]图1是本说明书一个实施例提供的一种文本处理方法应用于线上理赔系统的记录人员填写表单的界面示意图;
[0021]图2是本说明书一个实施例提供的一种文本处理方法的流程示意图;
[0022]图3是本说明书一个实施例提供的一种文本处理方法的流程图;
[0023]图4是本说明书一个实施例提供的一种文本处理方法的实体识别模型的处理过程示意图;
[0024]图5是本说明书一个实施例提供的一种文本处理方法对待评分文本进行评分示意图;
[0025]图6是本说明书一个实施例提供的一种文本处理方法的待处理文本与实体之间的关系知识图;
[0026]图7是本说明书一个实施例提供的一种文本处理装置的结构示意图;
[0027]图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
[0028]在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0029]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0030]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描
述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0031]首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0032]保险公估:保险公估是指接受保险当事人委托,独立地对保险事故所涉及的保险标的进行评估、勘验、鉴定、估损、理算等活动的行为。
[0033]面访调查:调查者直接走访被调查者,当面听取被调查者的意见。
[0034]视频面访:通过远程视频对话的形式完成面访过程。
[0035]保险视频面访:应用于保险领域的视频面访,调查者为保险公估员,被调查者为保险投保人。
[0036]智能纪要:智能纪要会自动提取出视频面访会话过程中的关键词信息,来帮助提高整个线上公估流程的效率。
[0037]ASR(Automatic Speech Recognition,自动语音识别技术):可以将声音信号转化为文本信号。
[0038]NER(Named Entity Recognition,命名实体识别技术):可以识别出一段文本中的实体名词(地址、时间、疾病、医院、检查等)。
[0039]实体链指(Entity Linking):将NER识别出来的实体和已有知识库中对应的实体进行关联。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:接收待处理文本,将所述待处理文本输入实体识别模型,获得带有实体识别标签的候选文本;将所述带有实体识别标签的候选文本输入实体判别模型,获得所述候选文本的候选实体,并基于所述候选实体确定备选文本;基于所述候选实体与所述备选文本构建关系知识图,基于所述关系知识图计算每个关系知识图节点之间的相似度,确定目标实体关系;基于所述目标实体关系在预设知识库中,确定目标实体文本。2.根据权利要求1所述的文本处理方法,所述实体识别模型通过如下方式训练获得:接收待处理样本文本,基于所述待处理样本文本随机确定对比样本文本,将所述待处理样本文本以及所述对比样本文本确定为训练样本集;基于所述训练样本集训练实体识别模型。3.根据权利要求2所述的文本处理方法,所述接收待处理文本,将所述待处理文本输入实体识别模型,获得带有实体识别标签的候选文本,包括:接收待处理文本,将所述待处理文本输入所述实体识别模型的语义识别模块,获得所述待处理文本的语义向量;基于所述待处理文本的语义向量确定所述待处理文本的拼音向量,将所述语义向量以及所述拼音向量输入所述实体识别模型的全连接层计算损失函数,获得所述待处理文本的损失值;将所述待处理文本的损失值输入所述实体识别模型的概率网络层,获得带有实体识别标签的候选文本。4.根据权利要求3所述的文本处理方法,所述将所述带有实体识别标签的候选文本输入实体判别模型,获得所述候选文本的候选实体,包括:基于带有实体识别标签的候选文本输入实体判别模型确定初始实体,将所述初始实体转换为初始实体拼音,并基于所述初始实体拼音在预设知识库中搜索与所述初始实体拼音相似的备选实体拼音;计算所述初始实体拼音与所述备选实体拼音的相似性,并基于所述相似性与文本属性进行排序,确定实体序列;根据预设序列阈值确定所述候选文本的候选实体。5.根据权利要求1

4任意一项所述的文本处理方法,所述基于所述候选实体确定备选文本,包括:获取所述候选文本的初始实体,并确定所述初始实体与所述候选实体的实体关联关系;基于所述初始实体、所述候选实体以及所述实体关联关系构造关系图;将所述关系图的节点实体嵌入所述待处理文本的初始实体之后,确定待评分文本,并基于所述待评分文本确定备选文本。6.根据权利要求5所述的文本处理方法,所述基于所述待评分文本确定备选文本,包括:将所述待评分文本输入语义识别模型进行编码,获得所述待处理文本的初始实体向量
以及所述关系图的节点实体向量;计算所述初始实体向量以及所述节点实体向量的相似性,确定备选文本。7.根据权利要求6所述的文本处理方法,所述基于所述关系知识图计算每个关系知识图节点之间的相似度,确定目标实体关系,包括:将所述关系知...

【专利技术属性】
技术研发人员:顾大中梁建增周梦迪王洪彬李楠乔建伟乔莉
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1