一种文本匹配处理方法和装置制造方法及图纸

技术编号:24168924 阅读:22 留言:0更新日期:2020-05-16 02:19
本公开提供了一种文本匹配处理方法和装置,该文本匹配处理方法包括:对待匹配文本进行分词;对分词结果进行格式转换,将中文格式转换为拼音格式;将转换格式后的分词结果进行向量化计算;根据计算得到的向量,计算待匹配文本的相似度。本公开解决了在医学领域中现有的常规分词、做词距的方法,准确率低、通用性差的问题。并且本公开的匹配方法准确程度大幅度提高,效率也大幅度提升。

A method and device of text matching

【技术实现步骤摘要】
一种文本匹配处理方法和装置
本公开涉及数据处理
,特别涉及一种文本匹配处理方法和装置。
技术介绍
目前,自然语言处理是人工智能领域内的一个困难重重同时引人注目的研究课题,理想结果就是能够使计算机像人那样理解、分析自然语言,从而解决文本分类、句法分析、语义理解、情感识别、语义推理等实际问题。在做词表字段匹配时,用常规的分词方法、做词距的方法,对生活领域的字段匹配效果较好。而在医学领域,对于海量的医学专有名词词表,常规的方法词表映射的准确率并不是很高,对于严谨的医学领域,常常出现匹配错误的情况是亟需解决的。
技术实现思路
为了解决上述技术问题中的至少一个,本公开提供了一种文本匹配处理方法和装置,解决了在医学领域,匹配结果差,效率低的问题。第一方面,本公开提供了一种文本匹配处理方法,该文本匹配处理方法包括:对待匹配文本进行分词;对分词结果进行格式转换;将转换格式后的分词结果进行向量化计算;根据计算得到的向量,计算待匹配文本的相似度。可选地,所述对分词结果进行格式转换,包括:对于分词后的结果,将中文格式转换为拼音格式。可选地,所述根据计算得到的向量,计算待匹配文本的相似度,包括:根据计算得到的词向量计算欧式距离得到待匹配文本的相似度。可选地,该文本匹配处理方法还包括:相似度大于预设阈值的待匹配文本进行匹配。第二方面,本公开提供了一种文本匹配处理装置,文本匹配处理装置包括:文本分词模块、格式转换模块、向量生成模块和相似计算模块,其中,所述文本分词模块,用于对待匹配文本进行分词;所述格式转换模块,用于对分词结果进行格式转换;所述向量生成模块,用于将转换格式后的分词结果进行向量化计算;所述相似计算模块,用于根据计算得到的向量,计算待匹配文本的相似度。可选地,所述格式转换模块具体用于对于分词后的结果,将中文格式转换为拼音格式。可选地,所述相似计算模块具体用于由获得的向量计算欧式距离得到待匹配文本的相似度。可选地,该文本匹配处理装置还包括:文本匹配模块用于相似度大于预设阈值的待匹配文本进行匹配。第三方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述文本匹配处理方法。第四方面,本公开提供了一种计算设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述文本匹配处理方法。与现有技术相比,本公开至少具有以下有益效果:本公开解决了在医学领域中现有的常规分词、做词距的方法,准确率低、通用性差的问题。本公开的匹配方法准确程度大幅度提高,效率也大幅度提升。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本公开一个实施例提供的一种文本匹配处理方法的流程示意图;图2是本公开一个实施例提供的另一种文本匹配处理方法的流程示意图;图3是本公开一个实施例提供的一种文本匹配处理装置的结构框图。具体实施方式为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例,基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。如图1所示,本公开实施例提供了一种文本匹配处理方法,该方法可以包括以下步骤:对待匹配文本进行分词;对分词结果进行格式转换;将转换格式后的分词结果进行向量化计算;根据计算得到的向量,计算待匹配文本的相似度。在该实施例中,中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言(NaturalLanguageProcessing,NLP)交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。本公开可以采用基于词典分词算法和基于统计的机器学习算法进行分词。进行分词处理得到分词结果确定所述预设语句的文本字符串,例如,所述“心脏震颤”分词后获得的文本字符串为“心脏/震颤”。对于不同的文本分词处理可能会分出单独的一个字,也可能会分出一个词。如图2所示,在本公开一个实施例中,所述对分词结果进行格式转换,包括:对于分词后的结果,将中文格式转换为拼音格式。在该实施例中,根据各预设语句的文本字符串,确定与所述文本字符串相对应的文本拼音,如分词确定的文本字符串为“肌酐”,根据所述文本字符串确定其文本拼音为“jigan”;分词确定的文本字符串为“心脏/震颤”,根据所述文本字符串确定其文本拼音为“xinzang/zhenchan”。其中,当所述文本字符串包括中文字符时,映射与所述中文字符相对应的文本拼音,当所述文本字符串包括英文字符时,所述英文字符的文本拼音为所述英文字符本身。在本公开一个实施例中,所述根据计算得到的向量,计算待匹配文本的相似度,包括:根据计算得到的词向量计算欧式距离得到待匹配文本的相似度。在本公开一个实施例中,该文本匹配处理方法还包括:相似度大于预设阈值的待匹配文本进行匹配。下面以医学领域的词表映射为例,对本公开提供的文本匹配处理方法进行详细说明。S1:对两类医学词表分别做分词。换句话说也就是对于需要匹配的两个词表分别做分词。S2:分词完成后,将分词结果里面的中文格式转换为汉语拼音的格式。例如:中文分词结果是一个列表形式,里面嵌套了词表里面的词进行分词后的结果。需要进行转换,把列表里面的每个结果,都改成汉语拼音的形式,结果即为列表形式,里面嵌套了汉语拼音形式的分词结果。S3:转换成拼音形式的分词结果进行词向量计算。转换成一维矩阵,矩阵里面都是数字组成,此过程即转换成了计算机能读懂的语言。S4:对于生成的词向量,计算欧式距离得出相似度。本公开通过使用中文汉字的拼音方式,去实现中文匹配的匹配,大大提高了准确率,尤其是在医学领域,在大部分常规模型下,使用汉语拼音的方式显得更加高效,能大大提升匹配结果的准确率。在实际应用中,也显得极为有效。如图3所示,本公开还提供了一种文本匹配处理装置,文本匹配处理装置包括:文本分词模块、格式转换模块、向量生成模块和相似计算模块,其中,所述文本分词模块,用于对待匹配文本进行分词;所述格式转换模块,用于对分词结果进行格式转换;所述向量生成模块,用本文档来自技高网...

【技术保护点】
1.一种文本匹配处理方法,其特征在于,该文本匹配处理方法包括:/n对待匹配文本进行分词;/n对分词结果进行格式转换;/n将转换格式后的分词结果进行向量化计算;/n根据计算得到的向量,计算待匹配文本的相似度。/n

【技术特征摘要】
1.一种文本匹配处理方法,其特征在于,该文本匹配处理方法包括:
对待匹配文本进行分词;
对分词结果进行格式转换;
将转换格式后的分词结果进行向量化计算;
根据计算得到的向量,计算待匹配文本的相似度。


2.根据权利要求1所述文本匹配处理方法,其特征在于,所述对分词结果进行格式转换,包括:
对于分词后的结果,将中文格式转换为拼音格式。


3.根据权利要求1所述文本匹配处理方法,其特征在于,所述根据计算得到的向量,计算待匹配文本的相似度,包括:
根据计算得到的词向量计算欧式距离得到待匹配文本的相似度。


4.根据权利要求1所述文本匹配处理方法,其特征在于,该文本匹配处理方法还包括:
相似度大于预设阈值的待匹配文本进行匹配。


5.一种文本匹配处理装置,其特征在于,该文本匹配处理装置包括:文本分词模块、格式转换模块、向量生成模块和相似计算模块,其中,
所述文本分词模块,用于对待匹配文本进行分词;
所述格式转换模块,用于对分词结果...

【专利技术属性】
技术研发人员:孙宇浩孙龙超张斌唐劭
申请(专利权)人:北京亚信数据有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1