文本无监督排序方法及系统技术方案

技术编号：40575384 阅读：3 留言：0更新日期：2024-03-06 17:16

本发明专利技术涉及一种文本无监督排序方法及系统，该排序方法包括步骤：S1、将所有候选文本中的每个候选文本分别与其余候选文本一一配对，以生成若干个比较对；S2、将样本文本分别与各个比较对进行比较，且与每个比较对进行比较的方法均为：将样本文本与比较对中的两个候选文本以交换顺序比较两次的方式进行相似度比较，然后结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况；S3、将所有候选文本按照相似度从高到低的顺序进行排序；其中，步骤S2和步骤S3基于设定的排序方法顺序执行或并行执行。本发明专利技术采用交换顺序两次比较的配对比较方式来确定两个候选文本相似度的高低，使得排序更稳定，排序准确性更高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，特别涉及一种文本无监督排序方法及系统。

技术介绍

1、无监督排序方法主要是处理query(即问题)和document(即问题相关文档)的相似问题。如：给到一个问题query和候选文本doc1,doc2,doc3,……,doc n，根据各候选文本和query的相似度进行排序。

2、目前无监督排序方法主要有以下三种方案：

3、1.基于语义相似度

4、通过embedding(即文本语义向量化)技术将query和doc的文本各自压缩到低维向量，然后通过向量之间的距离衡量两者的相似度。

5、优点：不需要标注数据，并且在抽象的语义相似层面衡量的比较好。

6、缺点：无法处理精确信息的匹配。

7、2.基于关键词匹配相似度

8、通过对两段文本进行分词，依靠tf-idf、bm25等关键词匹配算法计算相似度。

9、优点：分词处理速度快，且对精确匹配场景适应较好。

10、缺点：在语义相似度量效果不佳。

11、3.基于大语言模型(llm，large language models)的大模型排序

12、通过选择合适的prompt(即提示词)，llm可以给出query和每个doc的相似打分。

13、优点：没有数据依赖，且兼顾语义模糊匹配和文本精确匹配场景。

14、缺点：大模型排序不稳定，当上下文过长时，性能极急剧下降，无法处理候选文档过多的打分情况。

>技术实现思路

1、为了解决上述问题，本专利技术提供了一种文本无监督排序方法及系统，采用交换顺序两次比较的配对比较方式来确定两个候选文本相似度的高低，使得排序更稳定，排序准确性更高。

2、本专利技术通过如下方案实现，一种文本无监督排序方法，包括步骤：

3、s1、将所有候选文本中的每个候选文本分别与其余候选文本一一配对，以生成若干个比较对；

4、s2、将样本文本分别与各个比较对进行比较，且与每个比较对进行比较的方法均为：将样本文本与比较对中的两个候选文本以交换顺序比较两次的方式进行相似度比较，然后结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况；

5、s3、将所有候选文本按照相似度从高到低的顺序进行排序；其中，

6、步骤s2和步骤s3基于设定的排序方法顺序执行或并行执行。

7、本专利技术文本无监督排序方法的进一步改进在于，在与每个比较对进行比较时，结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况的方法为：

8、基于第一次比较的结果，对相似度较高的候选文本加一个单位分值；

9、基于第二次比较的结果，对相似度较高的候选文本加一个单位分值；

10、将比较对中的两个候选文本的分值对应求和，得到两个候选文本各自的总分值，总分值的高低对应为两个候选文本与样本文本的相似度高低。

11、本专利技术文本无监督排序方法的进一步改进在于，所述设定的排序方法为按分值排序法时，步骤s2和步骤s3基于按分值排序法顺序执行，且在执行步骤s3时，先将每个候选文本在各比较对中得到的总分值进行求和，得到各候选文本的汇总分值，再按照汇总分值从高到低的顺序对所有候选文本进行排序。

12、本专利技术文本无监督排序方法的进一步改进在于：所述设定的排序方法为冒泡排序法或快速排序法时，步骤s2和步骤s3基于冒泡排序法或快速排序法并行执行。

13、本专利技术文本无监督排序方法的进一步改进在于：

14、将所有候选文本分成若干组，使每组包括若干候选文本，然后将所有组同步执行步骤s1～步骤s3；

15、最后对所有组的排序结果进行归并。

16、本专利技术文本无监督排序方法的进一步改进在于：所述样本文本由原始样本长文本的关键信息拼接而成，各所述候选文本分别由对应的原始候选长文本的关键信息拼接而成。

17、本专利技术文本无监督排序方法的进一步改进在于：所述原始样本长文本的关键信息选自所述原始样本长文本的摘要、主题词和/或主题句；所述原始候选长文本的关键信息选自所述原始候选长文本的摘要、主题词和/或主题句。

18、本专利技术还提供了一种文本无监督排序系统，用于实现如上所述的文本无监督排序方法，所述文本无监督排序系统包括：

19、配对模块，用于将所有候选文本中的每个候选文本分别与其余候选文本一一配对，以生成若干个比较对；

20、比较模块，用于对每个所述比较对以交换顺序比较两次的方式将样本文本与两个候选文本进行相似度比较、以得到两个候选文本与样本文本的相似度高低情况，所述比较模块与所述配对模块连接；

21、排序模块，用于将所有候选文本按照相似度从高到低的顺序进行排序，所述排序模块与所述配对模块连接；其中，

22、所述配对模块、所述比较模块和所述排序模块均基于设定的排序方法进行定义和调用。

23、本专利技术文本无监督排序系统的进一步改进在于：所述配对模块、所述比较模块和所述排序模块均为大语言模型的功能模块。

24、本专利技术文本无监督排序系统的进一步改进在于：还包括语言处理模块，用于从长文本中提取关键信息并拼接成新文本，所述语言处理模块与所述配对模块和所述比较模块连接。

25、本专利技术采用交换顺序两次比较的配对比较方式来确定两个候选文本相似度的高低，使得排序更稳定，排序准确性更高；通过进一步借助冒泡排序和快速排序等传统排序法可实现对整个排序方法的并行加速，提高了排序效率。另外，通过引入自然语言处理系统，可对长文本进行关键信息提取，然后将关键信息拼接在一起作为长文本样本的替代，大大减轻了针对长文本进行相似度比较的难度。

本文档来自技高网...

【技术保护点】

1.一种文本无监督排序方法，其特征在于，包括步骤：

2.如权利要求1所述的文本无监督排序方法，其特征在于，在与每个比较对进行比较时，结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况的方法为：

3.如权利要求2所述的文本无监督排序方法，其特征在于，所述设定的排序方法为按分值排序法时，步骤S2和步骤S3基于按分值排序法顺序执行，且在执行步骤S3时，先将每个候选文本在各比较对中得到的总分值进行求和，得到各候选文本的汇总分值，再按照汇总分值从高到低的顺序对所有候选文本进行排序。

4.如权利要求1所述的文本无监督排序方法，其特征在于：所述设定的排序方法为冒泡排序法或快速排序法时，步骤S2和步骤S3基于冒泡排序法或快速排序法并行执行。

5.如权利要求1所述的文本无监督排序方法，其特征在于：

6.如权利要求1所述的文本无监督排序方法，其特征在于：所述样本文本由原始样本长文本的关键信息拼接而成，各所述候选文本分别由对应的原始候选长文本的关键信息拼接而成。

7.如权利要求6所述的文本无监督排序方法，其特

8.一种文本无监督排序系统，其特征在于，用于实现如权利要求1所述的文本无监督排序方法，所述文本无监督排序系统包括：

9.如权利要求8所述的文本无监督排序系统，其特征在于：所述配对模块、所述比较模块和所述排序模块均为大语言模型的功能模块。

10.如权利要求8所述的文本无监督排序系统，其特征在于：还包括语言处理模块，用于从长文本中提取关键信息并拼接成新文本，所述语言处理模块与所述配对模块和所述比较模块连接。

...

【技术特征摘要】

1.一种文本无监督排序方法，其特征在于，包括步骤：

3.如权利要求2所述的文本无监督排序方法，其特征在于，所述设定的排序方法为按分值排序法时，步骤s2和步骤s3基于按分值排序法顺序执行，且在执行步骤s3时，先将每个候选文本在各比较对中得到的总分值进行求和，得到各候选文本的汇总分值，再按照汇总分值从高到低的顺序对所有候选文本进行排序。

4.如权利要求1所述的文本无监督排序方法，其特征在于：所述设定的排序方法为冒泡排序法或快速排序法时，步骤s2和步骤s3基于冒泡排序法或快速排序法并行执行。

5.如权利要求1所述的文本无监督排序方法，其特征在于：

6.如权利要求1所述的文本无监...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：上海澜码科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人