分句方法、装置及可读存储介质制造方法及图纸

技术编号:37147680 阅读:24 留言:0更新日期:2023-04-06 22:00
本公开涉及一种分句方法,包括:获取包括待分句文本的输入,根据所述待分句文本中属于第一符号类别的预设符号,对所述待分句文本进行切分以得到规则分句集合,将所述规则分句集合中的规则分句输入至语义分句模型,得到语义分句集合,按预设方式输出所述语义分句集合。通过本公开实施例可以根据语义对不确定需要分句的语句进行划分,使得分句的结果更准确。使得分句的结果更准确。使得分句的结果更准确。

【技术实现步骤摘要】
分句方法、装置及可读存储介质


[0001]本公开涉及自然语言处理领域,尤其涉及一种分句方法、装置及可读存储介质。

技术介绍

[0002]自然语言处理技术中,分句是指将文本段落切分为多个单独的句子。现有的分句技术一般是基于规则的分句,在特定的标点符号位置处将句子分开。基于规则的分句方法由于逻辑太简单,导致效果很一般,对具体项目而言,在分句的结果中,经常出现一个分句表达不同主题的情况,因此导致分句与主题匹配的准确性不高。

技术实现思路

[0003]为克服相关技术中分句与主题匹配的准确性不高的问题,本公开提供一种分句方法、装置及可读存储介质。
[0004]本公开的第一方面实施例提供一种分句方法,包括:
[0005]获取包括待分句文本的输入;
[0006]根据所述待分句文本中属于第一符号类别的预设符号,对所述待分句文本进行切分以得到规则分句集合,其中,所述规则分句集合包括至少一个规则分句;
[0007]将所述规则分句集合中的规则分句输入至语义分句模型,得到语义分句集合,其中,所述语义分句集合包括与所述规则本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分句方法,其特征在于,包括:获取包括待分句文本的输入;根据所述待分句文本中属于第一符号类别的预设符号,对所述待分句文本进行切分以得到规则分句集合,其中,所述规则分句集合包括至少一个规则分句;将所述规则分句集合中的规则分句输入至语义分句模型,得到语义分句集合,其中,所述语义分句集合包括与所述规则分句集合中的每一规则分句对应的至少一个语义分句,与所述每一规则分句对应的至少一个语义分句中每一语义分句表征的主题不同;按预设方式输出所述语义分句集合。2.如权利要求1所述的方法,其特征在于,所述第一符号类别包括确定可分的符号,其中,所述根据所述待分句文本中属于所述第一符号类别的预设符号,对所述待分句文本进行切分以得到规则分句集合,包括:对于属于所述第一符号类别的预设符号中的每一预设符号,执行第一提取操作,得到所述规则分句集合,其中,所述第一提取操作包括:提取所述预设符号和与所述预设符号相邻的下一预设符号之间的文本,以得到一个规则分句。3.如权利要求1所述的方法,其特征在于,所述将所述规则分句集合中的规则分句输入至语义分句模型,得到语义分句集合,包括:对于所述规则分句集合中的每一所述规则分句,执行第二提取操作,得到所述语义分句集合,其中,所述第二提取操作包括:响应于所述规则分句中存在属于第二符号类别的预设符号,将所述规则分句输入所述语义分句模型,得到所述与所述规则分句对应的至少一个语义分句,并添加至所述语义分句集合,其中,所述第二符号类别包括不确定可分的符号,与所述规则分句对应的至少一个语义分句中每一语义分句表征的主题不同。4.如权利要求3所述的方法,其特征在于,其中,所述语义分句模型包括特征提取模型、编码器模型和解码器模型,所述将所述规则分句输入所述语义分句模型,得到所述与所述规则分句对应的至少一个语义分句,包括:将所述规则分句输入所述特征提取模型,得到与所述规则分句对应的规则分句特征;将所述规则分句特征输入编码器模型,得到与所述规则分句对应的规则分句编码;将所述规则分句编码输入解码器模型,得到所述至少一个语义分句,其中,与所述规则分句对应的至少一个语义分句中每一语义分句表征的主题不同。5....

【专利技术属性】
技术研发人员:陈明
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1