一种基于聚类算法的无监督学习多点匹配方法组成比例

技术编号：25835505 阅读：37 留言：0更新日期：2020-10-02 14:16

本发明专利技术公开了一种基于聚类算法的无监督学习多点匹配方法，包括S1、对短文本库进行预处理，以获取映射关系为短文本‑短文本的分词‑分词所包含的字的第一类映射链条，并根据第一类映射链条获取映射关系为字‑分词‑短文本的第二类映射链条；S2、输入待匹配文本，将待匹配文本打散为单个字，利用第二类映射链条将单个字映射到分词中，并将分词映射到短文本中，根据各个字在待匹配文本中的位置，矢量描述每一个短文本对待匹配文本的引用关系，以获取短文本库的引用矩阵等步骤。优点是：通过并行的多点匹配，使得算法可以一次性地将可能匹配到的短文本全部提取出来，提高了匹配效率，避免了对一个待匹配文本的循环匹配。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类算法的无监督学习多点匹配方法
本专利技术涉及文本处理领域，尤其涉及一种基于聚类算法的无监督学习多点匹配方法。
技术介绍
目前的文本处理技术中主要使用的是有监督学习的方法，这类方法虽然一般情况下准确率较高，但是需要大量标注好的文本作为训练集对模型进行训练。
技术实现思路
本专利技术的目的在于提供一种基于聚类算法的无监督学习多点匹配方法，从而解决现有技术中存在的前述问题。为了实现上述目的，本专利技术采用的技术方案如下：一种基于聚类算法的无监督学习多点匹配方法，包括如下步骤，S1、对短文本库进行预处理，以获取映射关系为短文本-短文本的分词-分词所包含的字的第一类映射链条，并根据第一类映射链条获取映射关系为字-分词-短文本的第二类映射链条；S2、输入待匹配文本，将待匹配文本打散为单个字，利用第二类映射链条将单个字映射到分词中，并将分词映射到短文本中，根据各个字在待匹配文本中的位置，矢量描述每一个短文本对待匹配文本的引用关系，以获取短文本库的引用矩阵；S3、对引用...

【技术保护点】
1.一种基于聚类算法的无监督学习多点匹配方法，其特征在于：包括如下步骤，/nS1、对短文本库进行预处理，以获取映射关系为短文本-短文本的分词-分词所包含的字的第一类映射链条，并根据第一类映射链条获取映射关系为字-分词-短文本的第二类映射链条；/nS2、输入待匹配文本，将待匹配文本打散为单个字，利用第二类映射链条将单个字映射到分词中，并将分词映射到短文本中，根据各个字在待匹配文本中的位置，矢量描述每一个短文本对待匹配文本的引用关系，以获取短文本库的引用矩阵；/nS3、对引用矩阵进行聚类分析，对短文本库中的短文本进行区域划分，并对每一类中包含的短文本与划分的短文本区域进行匹配打分，选取最佳匹配短文...

【技术特征摘要】
1.一种基于聚类算法的无监督学习多点匹配方法，其特征在于：包括如下步骤，
S1、对短文本库进行预处理，以获取映射关系为短文本-短文本的分词-分词所包含的字的第一类映射链条，并根据第一类映射链条获取映射关系为字-分词-短文本的第二类映射链条；
S2、输入待匹配文本，将待匹配文本打散为单个字，利用第二类映射链条将单个字映射到分词中，并将分词映射到短文本中，根据各个字在待匹配文本中的位置，矢量描述每一个短文本对待匹配文本的引用关系，以获取短文本库的引用矩阵；
S3、对引用矩阵进行聚类分析，对短文本库中的短文本进行区域划分，并对每一类中包含的短文本与划分的短文本区域进行匹配打分，选取最佳匹配短文本组成目标匹配集作为最后的匹配结果。

2.根据权利要求1所述的基于聚类算法的无监督学习多点匹配方法，其特征在于：步骤S1具体为，对短文本库中的每一个短文本进行分词处理，获取第一类映射链条，所述第一类映射链条的映射关系即为短文本-短文本的分词-分词所包含的字；对所述第一类映射链条进行反转，获取第二类映射链条，所述第二类映射链条的映射关系即为字-分词-短文本；所述第一类映射链条正向映射，第二类映射链条为反向映射。

3.根据权利要求2所述的基于聚类算法的无监督学习多点匹配方法，其特征在于：在第二类映射链条中，每一级映射都是一对多的映射关系，...

【专利技术属性】
技术研发人员：陈明东，黄越，
申请(专利权)人：思派健康产业投资有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人