一种文本匹配处理方法和装置制造方法及图纸

技术编号：24168924 阅读：22 留言：0更新日期：2020-05-16 02:19

本公开提供了一种文本匹配处理方法和装置，该文本匹配处理方法包括：对待匹配文本进行分词；对分词结果进行格式转换，将中文格式转换为拼音格式；将转换格式后的分词结果进行向量化计算；根据计算得到的向量，计算待匹配文本的相似度。本公开解决了在医学领域中现有的常规分词、做词距的方法，准确率低、通用性差的问题。并且本公开的匹配方法准确程度大幅度提高，效率也大幅度提升。

A method and device of text matching

全部详细技术资料下载

【技术实现步骤摘要】
一种文本匹配处理方法和装置
本公开涉及数据处理
，特别涉及一种文本匹配处理方法和装置。
技术介绍
目前，自然语言处理是人工智能领域内的一个困难重重同时引人注目的研究课题，理想结果就是能够使计算机像人那样理解、分析自然语言，从而解决文本分类、句法分析、语义理解、情感识别、语义推理等实际问题。在做词表字段匹配时，用常规的分词方法、做词距的方法，对生活领域的字段匹配效果较好。而在医学领域，对于海量的医学专有名词词表，常规的方法词表映射的准确率并不是很高，对于严谨的医学领域，常常出现匹配错误的情况是亟需解决的。
技术实现思路
为了解决上述技术问题中的至少一个，本公开提供了一种文本匹配处理方法和装置，解决了在医学领域，匹配结果差，效率低的问题。第一方面，本公开提供了一种文本匹配处理方法，该文本匹配处理方法包括：对待匹配文本进行分词；对分词结果进行格式转换；将转换格式后的分词结果进行向量化计算；根据计算得到的向量，计算待匹配文本的相似度。可选地，所述对分词结果进行格式转换，包括：对于分词后的结果，将中文格式转换为拼音格式。可选地，所述根据计算得到的向量，计算待匹配文本的相似度，包括：根据计算得到的词向量计算欧式距离得到待匹配文本的相似度。可选地，该文本匹配处理方法还包括：相似度大于预设阈值的待匹配文本进行匹配。第二方面，本公开提供了一种文本匹配处理装置，文本匹配处理装置包括：文本分词模块、格式转换模块...

【技术保护点】
1.一种文本匹配处理方法，其特征在于，该文本匹配处理方法包括：/n对待匹配文本进行分词；/n对分词结果进行格式转换；/n将转换格式后的分词结果进行向量化计算；/n根据计算得到的向量，计算待匹配文本的相似度。/n

【技术特征摘要】
1.一种文本匹配处理方法，其特征在于，该文本匹配处理方法包括：
对待匹配文本进行分词；
对分词结果进行格式转换；
将转换格式后的分词结果进行向量化计算；
根据计算得到的向量，计算待匹配文本的相似度。

2.根据权利要求1所述文本匹配处理方法，其特征在于，所述对分词结果进行格式转换，包括：
对于分词后的结果，将中文格式转换为拼音格式。

3.根据权利要求1所述文本匹配处理方法，其特征在于，所述根据计算得到的向量，计算待匹配文本的相似度，包括：
根据计算得到的词向量计算欧式距离得到待匹配文本的相似度。

4.根据权利要求1所述文本匹配处理方法，其特征在于，该文本匹配处理方法还包括：
相似度大于预设阈值的待匹配文本进行匹配。

5.一种文本匹配处理装置，其特征在于，该文本匹配处理装置包括：文本分词模块、格式转换模块、向量生成模块和相似计算模块，其中，
所述文本分词模块，用于对待匹配文本进行分词；
所述格式转换模块，用于对分词结果...

【专利技术属性】
技术研发人员：孙宇浩，孙龙超，张斌，唐劭，
申请(专利权)人：北京亚信数据有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人