词链模型的生成方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:21115966 阅读:17 留言:0更新日期:2019-05-16 09:03
本发明专利技术公开一种词链模型的生成方法、装置、设备及计算机可读存储介质,所述方法包括:读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。本方案将标准词依据划分的标准分词形成词链模型,通过词链模型中各标准分词之间的相关性实现对非标准词的匹配,简化了匹配操作,同时提高匹配的效率以及自动化程度。

【技术实现步骤摘要】
词链模型的生成方法、装置、设备及计算机可读存储介质
本专利技术主要涉及数据处理
,具体地说,涉及一种词链模型的生成方法、装置、设备及计算机可读存储介质。
技术介绍
医药领域中涉及到众多表征疾病名称、药品名称、诊断手段的标准词,而市面上也涉及到多种表征标准词的非标准词;为了规范化管理,通常需要为各非标准词匹配对应的标准词;在匹配前将各标准词划分为各个分词,而通过各个分词实现对非标准词的匹配。在用各标准词的分词为非标准词匹配对应的标准词时,匹配的准确性与分词结果相关;因非标准词的形式多种多样,而分词的形式较为固定,使得在匹配的过程中需要针对不同的非标准词调整分词结果,来确保匹配的准确性。此调整的过程增加了匹配的复杂性,降低了匹配效率,匹配的自动化程度低。
技术实现思路
本专利技术的主要目的是提供一种词链模型的生成方法、装置、设备及计算机可读存储介质,旨在解决现有技术中通过调整分词结果来对非匹配词进行匹配,导致匹配过程复杂,匹配效率低的问题。为实现上述目的,本专利技术提供一种词链模型的生成方法,所述词链模型的生成方法包括以下步骤:读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。优选地,所述根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型的步骤包括:将各所述目标汉字和各所述标准分词对比,确定包含各所述目标汉字的目标标准分词;统计各所述目标标准分词中所包括的汉字个数,将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型。优选地,所述将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合的步骤包括:读取各所述目标汉字所生成的各所述字链模型中在同一层级上的目标字链模型,并将各所述目标字链模型中所具有的所述目标标准分词进行合并,形成字链集合;判断所述字链集合中是否存在重复的所述目标标准分词,若存在重复的所述目标标准分词,则将重复的所述目标标准分词从所述字链集合中删除,并检测各所述目标汉字在各层级上是否均形成所述字链集合;若各所述目标汉字在各层级上均形成所述字链集合,则将各所述字链集合确定为所述标准词在各层级上的分词集合。优选地,所述根据所述分词集合,形成所述标准词的词链模型的步骤包括:将所述标准词和各层级上分词集合中的目标标准分词对比,从各层级上的分词集合中确定包括各个数量所述目标汉字的目标分词集合;当所述目标分词集合中的目标标准分词包括所述目标汉字的数量和所述标准词中汉字数量一致时,将各所述目标分词集合形成所述标准词在各所述层级上的词链模型。优选地,所述将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型的步骤之后包括:判断所述目标汉字中是否存在重复汉字,若存在所述重复汉字,则对存在所述重复汉字的所述目标汉字,在各层级上字链模型中的目标标准分词设置字链权重。优选地,所述将各所述目标分词集合形成所述标准词在各所述层级上的词链模型的步骤包括:检测各所述目标分词集合中是否包括携带有预设权重标识符的权重标准分词,若包括携带有预设权重标识符的权重标准分词,则读取与所述预设权重标识符对应的字链权重;将对应的所述字链权重添加到各所述目标分词集合中的权重标准分词上,并将经添加所述字链权重后的各所述目标分词集合形成所述标准词在各所述层级上的词链模型。优选地,所述形成所述标准词的词链模型的步骤之后包括:对所述标准词添加完成标识符,并判断所述预设标准词库中的标准词是否均携带所述完成标识符;若均携带所述完成标识符,则完成所述预设标准词库中各所述标准词的词链模型的生成;若不均携带所述完成标识符,执行读取预设标准词库中的标准词以及与所述标准词对应的各目标分词的步骤,且所读取的标准词为不携带完成标识符的标准词。此外,为实现上述目的,本专利技术还提出一种词链模型的生成装置,所述词链模型的生成装置包括:拆分模块,用于读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;确定模块,用于根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;生成模块,用于将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。此外,为实现上述目的,本专利技术还提出一种词链模型的生成设备,所述词链模型的生成设备包括:存储器、处理器、通信总线以及存储在所述存储器上的词链模型的生成程序;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行所述词链模型的生成程序,以实现以下步骤:读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。本实施例的词链模型的生成方法,通过读取预设标准词库中的标准词,以及与标准词对应的各目标分词,并将各目标分词拆分为单个的目标汉字;进而由预设标准词库中的各标准分词,确定各目标汉字在各层级上的字链模型;再将各目标汉字在各层级上的字链模型进行合并操作,生成标准词在各层级上的分词集合,实现由该分词集合形成标准词的词链模型。词链模型表征了标准词中各目标汉字与各标准分词之间的相关性,通过词链模型中各标准分词之间的相关性实现对非标准词的匹配,避免了对标准库中分词结果的调整,可简化匹配操作,同时提高匹配的效率以及自动化程度。附图说明图1是本专利技术的词链模型的生成方法第一实施例的流程示意图;图2是本专利技术的词链模型的生成装置第一实施例的功能模块示意图;图3是本专利技术实施例方法涉及的硬件运行环境的设备结构示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种词链模型的生成方法。请参照图1,图1为本专利技术词链模型的生成方法第一实施例的流程示意图。在本实施例中,所述词链模型本文档来自技高网...

【技术保护点】
1.一种词链模型的生成方法,其特征在于,所述词链模型的生成方法包括以下步骤:读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。

【技术特征摘要】
1.一种词链模型的生成方法,其特征在于,所述词链模型的生成方法包括以下步骤:读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。2.如权利要求1所述的词链模型的生成方法,其特征在于,所述根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型的步骤包括:将各所述目标汉字和各所述标准分词对比,确定包含各所述目标汉字的目标标准分词;统计各所述目标标准分词中所包括的汉字个数,将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型。3.如权利要求2所述的词链模型的生成方法,其特征在于,所述将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合的步骤包括:读取各所述目标汉字所生成的各所述字链模型中在同一层级上的目标字链模型,并将各所述目标字链模型中所具有的所述目标标准分词进行合并,形成字链集合;判断所述字链集合中是否存在重复的所述目标标准分词,若存在重复的所述目标标准分词,则将重复的所述目标标准分词从所述字链集合中删除,并检测各所述目标汉字在各层级上是否均形成所述字链集合;若各所述目标汉字在各层级上均形成所述字链集合,则将各所述字链集合确定为所述标准词在各层级上的分词集合。4.如权利要求3所述的词链模型的生成方法,其特征在于,所述根据所述分词集合,形成所述标准词的词链模型的步骤包括:将所述标准词和各层级上分词集合中的目标标准分词对比,从各层级上的分词集合中确定包括各个数量所述目标汉字的目标分词集合;当所述目标分词集合中的目标标准分词包括所述目标汉字的数量和所述标准词中汉字数量一致时,将各所述目标分词集合形成所述标准词在各所述层级上的词链模型。5.如权利要求4所述的词链模型的生成方法,其特征在于,所述将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型的步骤之后包括:判断所述目标汉字中是否存...

【专利技术属性】
技术研发人员:黄越陈明东
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1