语句分词方法、装置及电子设备制造方法及图纸

技术编号:32134384 阅读:50 留言:0更新日期:2022-01-29 19:40
本发明专利技术提供了一种语句分词方法、装置及电子设备,涉及文本处理技术领域。其中的方法应用于电子设备,该方法包括:获取初始语句以及初始语句对应的第一分词集合;通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合;根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合。本发明专利技术通过正则表达式,得到与实际应用场景更加匹配的第二分词集合,基于第二分词集合确定的目标分词集合在保留了原有分词结果的基础上,进一步将特殊词语进行了优化,使得分词结果更准确。确。确。

【技术实现步骤摘要】
语句分词方法、装置及电子设备


[0001]本专利技术涉及文本处理
,尤其是涉及一种语句分词方法、装置及电子设备。

技术介绍

[0002]目前针对语句的分词,通常使用一些分词工具及特定领域的词库,得到一个语句的拆分后的词语的集合,并利用其中的词语进行进一步的分析以及处理。
[0003]但该方法由于对词库的较强依赖,使得中文中存在的一些变量,如时间、数字、特定领域中期待分出的一些符合规则的字符串等,不能很好的分出来。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种语句分词方法、装置及电子设备,以提高在医学病例研究领域中分词结果的准确性。
[0005]第一方面,本专利技术实施例提供一种语句分词方法,该方法应用于电子设备,该方法包括:获取初始语句以及初始语句对应的第一分词集合;其中,第一分词集合包括从初始语句中提取的多个第一词语,以及每个第一词语在初始语句中的起始位置和终止位置,第一词语的总和构成初始语句,初始语句为表征病人病情信息的语句;通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;其中,第二分词集合中包括从初始语句中提取的与正则表达式匹配的第二词语,以及每个第二词语在初始语句中的起始位置和终止位置;根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合;其中,预设匹配规则指示是否对第二分词集合中的第二词语进行删除和/或合并的更新操作;根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合;其中,目标分词集合中包含更新后的第二分词集合中的每个第二词语,目标分词集合中的所有词语的总和与初始语句相同。
[0006]进一步地,上述根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合的步骤,包括:针对第一分词集合中的每个第一词语以及第二分词集合中的每个第二词语,分别执行以下判断:根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定当前第一词语与当前第二词语之间的位置关系;根据位置关系以及预设匹配规则,对当前第二词语进行更新。
[0007]进一步地,上述根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定当前第一词语与当前第二词语之间的位置关系的步骤,包括:如果当前第一词语的终止位置小于当前第二词语的起始位置,确定当前第一词语与当前第二词语无交叉;如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语;如果当前第一词语的终止位置等于当前第二词语的起始位置,确定当前第一词语与当前第二词语端点相交;如果当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一次与的终止位置等于当前第二词语的终止位置,确定当前第一词语与当前第二词语相等。
[0008]进一步地,上述如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语的步骤,包括:当满足以下情况中的任意一种时,确定当前第一词语包括当前第二词语:当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一词语的终止位置大于当前第二词语的终止位置;或者,当前第一词语的起始位置小于当前第二词语的起始位置,且当前第一词语的终止位置等于当前第二词语的终止位置;或者,当前第一词语的起始位置小于当前第二词语的起始位置且当前第一词语的终止位置大于当前第二词语的终止位置。
[0009]进一步地,上述预设匹配规则为:如果当前第一词语包含当前第二词语,删除当前第二词语;如果当前第一词语与当前第二词语端点相交,且当前第一词语与当前第二词语均表征时间,将当前第一词语与当前第二词语合并,并将合并后的词语更新为当前第二词语。
[0010]进一步地,上述根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合的步骤,包括:根据更新后的第二分词集合,对初始语句进行分割,得到子句集合;对子句集合中的每个子句进行分词处理,得到第三分词集合;其中,分词处理为通过分词工具和/或神经网络模型对子句进行分词;根据更新后的第二分词集合中的每个第二词语的起始位置和终止位置,以及第三分词集合中的每个第三词语的起始位置和终止位置,将第二词语以及第三词语进行组合,得到目标分词集合。
[0011]进一步地,上述第一分词集合通过分词工具和/或神经网络模型确定。
[0012]第二方面,本专利技术实施例还提供一种语句分词装置,该装置包括:获取模块,用于获取初始语句以及初始语句对应的第一分词集合;其中,第一分词集合包括从初始语句中提取的多个第一词语,以及每个第一词语在初始语句中的起始位置和终止位置,第一词语的总和构成初始语句,初始语句为表征病人病情信息的语句;第二分词集合确定模块,用于通过预设的正则表达式集合中的每个正则表达式,分别对初始语句进行匹配处理,确定第二分词集合;其中,第二分词集合中包括从初始语句中提取的与正则表达式匹配的第二词语,以及每个第二词语在初始语句中的起始位置和终止位置;更新模块,用于根据第一分词集合以及预设匹配规则,对第二分词集合进行更新操作,得到更新后的第二分词集合;其中,预设匹配规则指示是否对第二分词集合中的第二词语进行删除和/或合并的更新操作;目标分词集合确定模块,用于根据更新后的第二分词集合,重新对初始语句进行分词,得到初始语句对应的目标分词集合;其中,目标分词集合中包含更新后的第二分词集合中的每个第二词语,目标分词集合中的所有词语的总和与初始语句相同。
[0013]第三方面,本专利技术实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面的语句分词方法。
[0014]第四方面,本专利技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面的语句分词方法。
[0015]与现有技术相比,本专利技术具有以下有益效果:
[0016]本专利技术实施例提供的上述语句分词方法、装置及电子设备,通过预设的正则表达式,得到与实际应用场景更加匹配的第二分词集合,并根据第一分词集合对第二分词集合
进行更新,并基于更新后的第二分词集合再次对初始语句进行分词,得到的目标分词集合在保留了原有分词结果的基础上,进一步根据正则表达式将特殊词语进行了优化,使得分词结果更准确。
[0017]本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
[0018]为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0019]为了更清楚地说明本专利技术具体实施方式或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语句分词方法,其特征在于,所述方法应用于电子设备,所述方法包括:获取初始语句以及所述初始语句对应的第一分词集合;其中,所述第一分词集合包括从所述初始语句中提取的多个第一词语,以及每个所述第一词语在所述初始语句中的起始位置和终止位置,所述第一词语的总和构成所述初始语句,所述初始语句为表征病人病情信息的语句;通过预设的正则表达式集合中的每个正则表达式,分别对所述初始语句进行匹配处理,确定第二分词集合;其中,所述第二分词集合中包括从所述初始语句中提取的与所述正则表达式匹配的第二词语,以及每个所述第二词语在所述初始语句中的起始位置和终止位置;根据所述第一分词集合以及预设匹配规则,对所述第二分词集合进行更新操作,得到更新后的第二分词集合;其中,所述预设匹配规则指示是否对所述第二分词集合中的第二词语进行删除和/或合并的更新操作;根据更新后的所述第二分词集合,重新对所述初始语句进行分词,得到所述初始语句对应的目标分词集合;其中,所述目标分词集合中包含所述更新后的第二分词集合中的每个所述第二词语,所述目标分词集合中的所有词语的总和与所述初始语句相同。2.根据权利要求1所述的方法,其特征在于,根据所述第一分词集合以及预设匹配规则,对所述第二分词集合进行更新操作,得到更新后的第二分词集合的步骤,包括:针对所述第一分词集合中的每个第一词语以及所述第二分词集合中的每个第二词语,分别执行以下判断:根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定所述当前第一词语与所述当前第二词语之间的位置关系;根据所述位置关系以及预设匹配规则,对所述当前第二词语进行更新。3.根据权利要求2所述的方法,其特征在于,根据当前第一词语的起始位置和终止位置,以及当前第二词语的起始位置和终止位置,确定所述当前第一词语与所述当前第二词语之间的位置关系的步骤,包括:如果当前第一词语的终止位置小于当前第二词语的起始位置,确定当前第一词语与当前第二词语无交叉;如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语;如果当前第一词语的终止位置等于当前第二词语的起始位置,确定当前第一词语与当前第二词语端点相交;如果当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一次与的终止位置等于当前第二词语的终止位置,确定当前第一词语与当前第二词语相等。4.根据权利要求3所述的方法,其特征在于,如果当前第一词语的起始位置和终止位置表征的范围包括当前第二词语的起始位置和终止位置表征的范围,确定当前第一词语包含当前第二词语的步骤,包括:当满足以下情况中的任意一种时,确定当前第一词语包括当前第二词语:当前第一词语的起始位置等于当前第二词语的起始位置,且当前第一词语的终止位置大于当前第二词语的终止位置;或者,
当前第一词语的起始位置小于当前第二词语的起始位置,且当前第一词语的终止位置等于当前第二词语的终止位置;或...

【专利技术属性】
技术研发人员:王利叶尚亚飞胡可云陈联忠
申请(专利权)人:北京嘉和海森健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1