一种短文本语义相似度识别方法、装置、设备及介质制造方法及图纸

技术编号：40597247 阅读：3 留言：0更新日期：2024-03-12 22:00

本发明专利技术涉及语义识别技术领域，公开了一种短文本语义相似度识别方法、装置、设备及介质，该方法包括：获取待识别相似度的第一文本与第二文本；分析第一文本、第二文本中每一个汉字的所有边旁部首，确定数字标识以及边旁部首权重，并生成边旁部首向量集；对第一文本、第二文本进行分词处理，确定第一文本对应的第一权重集以及第二文本对应的第二权重集；基于第一文本对应的边旁部首向量集以及第一权重集，确定第一综合向量集；基于第二文本对应的边旁部首向量集以及第二权重集，确定第二综合向量集；基于第一综合向量集、第二综合向量集，确定第一文本与第二文本的语义相似度。采用边旁部首与分词结合的方式不仅无需依赖云端数据，且计算较为轻便。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语义识别，具体涉及一种短文本语义相似度识别方法、装置、设备及介质。

技术介绍

1、目前主流的软件语义相似度判别功能主要都是依赖于云服务提供商，也即是基于互联网在线提供的功能进行判别。云服务提供商基于强大的服务器计算能力和海量基础数据而提供的服务。

2、但很多企业由于保密性原因，无法接入云端互联网，因此无法使用依赖于云服务提供商提供的用于语义相似度判别的互联网服务。由于云服务提供商提供的语义识别技术具有更广的知识范围，其数据库及算法均十分庞大，不适用于在脱离云服务提供商的情况下使用，且识别精度较低。

技术实现思路

1、有鉴于此，本专利技术提供了一种短文本语义相似度识别方法、装置、设备及介质，以解决上述问题。

2、第一方面，本专利技术提供了一种短文本语义相似度识别方法，该方法包括：

3、获取待识别相似度的第一文本与第二文本；

4、分别分析第一文本、第二文本中每一个汉字的所有边旁部首，并基于预先设置的边旁部首权重库，确定每一个边旁部首对应的数字标识以及边旁部首权重；

5、将汉字包括的所有边旁部首的权重，按照边旁部首对应的数字标识，生成边旁部首向量集，其中，一个汉字对应一个边旁部首向量集，边旁部首向量集的维度总数等于边旁部首权重库中的边旁部首的总个数；

6、分别对第一文本、第二文本进行分词处理，并确定第一文本对应的第一权重集以及第二文本对应的第二权重集；

7、基于第一文本对应的所有边旁部首向量

8、基于第一综合向量集以及第二综合向量集，确定第一文本与第二文本的语义相似度。

9、本实施例中提供的是一种计算短文本语义相似度的轻量级算法，通过分析短文本中各个汉字的边旁部首及其权重以及汉字本身在词义中的权重，把字词向量化进而把短文本向量化，最后通过计算两个短文本向量的余弦距离，来判断两个短文本的语义相似度。该方法不仅无需依赖于云端数据，且计算较为轻便，边旁部首与分词结合的方式，能够进一步有效提高语义相似度识别的准确性。

10、在一种可选的实施方式中，对第一文本进行分词处理，并确定第一文本对应的第一权重集，包括：

11、根据预先设置的分词权重库，确定进行分词处理后的汉字以及词语的权重，其中，在分词处理时，若汉字被分在了词语中，则将该词语的权重作为该汉字的权重；

12、将第一文本中所有汉字对应的权重，按照汉字顺序封装为第一权重集。

13、针对各个领域设置的分词权重库，不仅可以减少计算的复杂程度，还可以针对性的提高语义相似度识别的准确性。

14、在一种可选的实施方式中，基于第一文本对应的所有边旁部首向量集以及第一权重集，确定第一综合向量集，包括：

15、确定第一文本中每一个汉字对应的边旁部首向量集；

16、将第一权重集中的每一个汉字对应的权重与该汉字对应的边旁部首向量集进行加权和计算，获得第一综合向量集。

17、通过分析短文本中各个汉字的边旁部首及其权重以及汉字本身在词义中的权重，把字词向量化进而把短文本向量化，进而提供一种计算短文本语义相似度的轻量级算法，且无需依赖于云端数据。

18、在一种可选的实施方式中，基于第一综合向量集以及第二综合向量集，确定第一文本与第二文本的语义相似度，包括：

19、通过以下公式计算语义相似度：

20、

21、其中，c为语义相似度、m为边旁部首向量集的维度总数、i为变量、ti为第一综合向量集中的第i个向量、si为第二综合向量集中的第i个向量。

22、在一种可选的实施方式中，在分析第一文本、第二文本中每一个汉字的所有边旁部首之前，包括：

23、将获取的第一文本、第二文本中的预设词汇进行过滤，预设词汇为不会对文本语义产生影响的汉字或词语；

24、将过滤后的第一文本与第二文本作为待识别相似度的第一文本与第二文本。

25、滤除一些常见的但对文本语义不会产生影响的汉字或词语等，并基于滤除后的文本进行语义相似度识别，这样可以去除一下无用信息，提高处理效率。

26、第二方面，本专利技术提供了一种短文本语义相似度识别方法装置，该装置包括：

27、获取文本，用于获取待识别相似度的第一文本与第二文本；

28、边旁部首分析模块，用于分别分析第一文本、第二文本中每一个汉字的所有边旁部首，并基于预先设置的边旁部首权重库，确定每一个边旁部首对应的数字标识以及边旁部首权重；

29、边旁部首向量集生成模块，用于将汉字包括的所有边旁部首的权重，按照边旁部首对应的数字标识，生成边旁部首向量集，其中，一个汉字对应一个边旁部首向量集，边旁部首向量集的维度总数等于边旁部首权重库中的边旁部首的总个数；

30、分词处理模块，用于分别对第一文本、第二文本进行分词处理，并确定第一文本对应的第一权重集以及第二文本对应的第二权重集；

31、综合模块，用于基于第一文本对应的所有边旁部首向量集以及第一权重集，确定第一综合向量集；基于第二文本对应的所有边旁部首向量集以及第二权重集，确定第二综合向量集；

32、语音相似度确定模块，用于基于第一综合向量集以及第二综合向量集，确定第一文本与第二文本的语义相似度。

33、第三方面，本专利技术提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的短文本语义相似度识别方法。

34、第四方面，本专利技术提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的短文本语义相似度识别方法。

本文档来自技高网...

【技术保护点】

1.一种短文本语义相似度识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述第一文本进行分词处理，并确定所述第一文本对应的第一权重集，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一文本对应的所有所述边旁部首向量集以及所述第一权重集，确定第一综合向量集，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一综合向量集以及所述第二综合向量集，确定所述第一文本与所述第二文本的语义相似度，包括：

5.根据权利要求2所述的方法，其特征在于，在分析所述第一文本、所述第二文本中每一个汉字的所有边旁部首之前，包括：

6.一种短文本语义相似度识别装置，其特征在于，所述装置包括：

7.一种计算机设备，其特征在于，包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-5任一项所述的短文本语义相似度识别方法。

【技术特征摘要】

1.一种短文本语义相似度识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述第一文本进行分词处理，并确定所述第一文本对应的第一权重集，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一文本对应的所有所述边旁部首向量集以及所述第一权重集，确定第一综合向量集，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一综合向量集以及所述第二综合向量集，确定所述第一文本与所...

【专利技术属性】
技术研发人员：蒋定福，金斌，
申请(专利权)人：浙江精创教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人