词汇切分方法、装置、终端设备及存储介质制造方法及图纸

技术编号:30160219 阅读:25 留言:0更新日期:2021-09-25 15:13
本申请适用于人工智能技术领域,提供了一种词汇切分方法、装置、终端设备及存储介质,该方法包括:对待切分语句进行实体识别得到第一词汇集,以及将待切分语句与预设字典进行词汇匹配得到第二词汇集;根据预设评分规则,确定第一词汇集和第二词汇集中各词汇的切分评分,将第一词汇集与第二词汇集进行组合,得到组合片段;分别确定组合片段中各字符对应的词汇路径,根据切分评分确定各词汇路径的路径分数;根据各词汇路径的路径分数对待切分语句进行词汇切分,得到切分词汇。本申请通过切分评分确定各词汇路径的路径分数,并根据各词汇路径的路径分数对待切分语句进行词汇切分,可以实现对待切分语句的词汇进行有效切分。现对待切分语句的词汇进行有效切分。现对待切分语句的词汇进行有效切分。

【技术实现步骤摘要】
词汇切分方法、装置、终端设备及存储介质


[0001]本申请涉及人工智能领域,尤其涉及一种词汇切分方法、装置、终端设备 及存储介质。

技术介绍

[0002]随着科技进步和生活水平的提高,越来越多的业务场景开始使用图像的媒 介来保存用户的资料。比如在保险领域,用户可以通过提交病例资料(门诊病 例、住院病例、化验单等),个人身份证明资料(身份证、户口本等)给保险 公司,保险公司可以通过审核图像资料来判断用户是否满足投保要求或者理赔 的要求。在投保的核保阶段,保险公司对病例中诊断提及的疾病是非常重视的。 这些疾病都可以作为核保的风险点,对这些风险点做进一步的判断即可作为是 否拒保的依据。因此,针对图像中语句的词汇抽取问题越来越受人们所重视。
[0003]相关技术中,在对语句进行词汇抽取时,需要对语句中的词汇进行切分, 并基于词汇的切分结果得到语句对应的切分词汇。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种词汇切分方法、装置、终端设备及存 储介质,以解决现有技术中,需要对病例中的语句进行词汇切分的问题。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词汇切分方法,其特征在于,包括:响应于接收到待切分语句,对所述待切分语句进行实体识别,得到第一词汇集,以及将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集;根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,并将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段;分别确定所述组合片段中各字符对应的词汇路径,其中,所述词汇路径为相应字符在所述组合片段中形成的字符串,并根据所述切分评分确定各词汇路径的路径分数;根据各词汇路径的路径分数对所述待切分语句进行词汇切分,得到切分词汇。2.根据权利要求1所述的词汇切分方法,其特征在于,所述第二词汇集包括第一子词集和第二子词集,所述将所述待切分语句与预设字典进行词汇匹配,得到第二词汇集,包括:将所述待切分语句与所述预设字典进行词汇匹配,得到所述第一子词集,并对所述待切分语句进行标点识别,得到语句标点;根据所述语句标点对所述待切分语句进行段落切分,得到语句段落,并将所述语句段落与所述预设字典进行词汇匹配,得到所述第二子词集。3.根据权利要求2所述的词汇切分方法,其特征在于,所述根据预设评分规则,分别确定所述第一词汇集和所述第二词汇集中各词汇的切分评分,包括:分别将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典进行词汇匹配;若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典不匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应的字符数设置为所述切分评分;若所述第一词汇集、所述第一子词集和所述第二子词集中的词汇与所述预设字典相匹配,则将所述第一词汇集、所述第一子词集和所述第二子词集中的词汇对应预设倍数的字符数设置为所述切分评分。4.根据权利要求2所述的词汇切分方法,其特征在于,所述将所述第一词汇集中的词汇与所述第二词汇集中的词汇进行组合,得到组合片段,包括:对所述第一词汇集、所述第一子词集和所述第二子词集中的词汇进行词汇检测,所述词汇检测用于检测所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇是否有重复;若所述第一词汇集、所述第一子词集和所述第二子词集之间的词汇有重复,则删除重复的词汇;分别查询所述第一词汇集、所述第一子词集、所述第二子词集中的词汇和所述语句标点在所述待切分...

【专利技术属性】
技术研发人员:陈乐清曾增烽刘东煜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1