一种面向用户问答的知识文本抽取方法及系统技术方案

技术编号：40811655 阅读：2 留言：0更新日期：2024-03-28 19:33

本发明专利技术公开了一种面向用户问答的知识文本抽取方法及系统，包括以下步骤：构建知识文本数据库；针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本；利用信息熵函数遍历计算所有所述排序后相关文本，得到所有排序后相关文本的信息熵；基于所有排序后相关文本的信息熵，利用得分判断函数遍历计算所有所述排序后相关文本的判断得分，确定所述判断得分最大时的第i个所述排序后相关文本，分割获取前i个所述排序后相关文本作为最佳文本；将所述最佳文本进行拼装，将拼装后的最佳文本作为回答输出给用户，实现了基于用户问题的最相关知识文档分割以及知识文本组合最优组合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，特别涉及一种面向用户问答的知识文本抽取方法及系统。

技术介绍

1、传统的文本分割算法，更加倾向于在没有外来数据的基础上，基于机器学习或者深度学习的方法实现文本分割，但是分割效果更多是倾向于文本分段等工作，但是在目前大模型外挂知识库的应用场景中，用户问题涉及的知识可能存在于文档中的不同位置，因此传统的文本分割算法不适用于目前的任务。

2、当前面向用户提问的大模型知识库搜索与文本分割的对话技术尚不成熟，模型的注意力窗口无法实现对文档的覆盖，在现有的基于用户问题的最相关知识文档分割过程中，容易出现错误累积，以及过长的文本导致模型出现长距离建模崩溃的问题。

3、因此，研究一种能避免在基于用户问题的最相关知识文档分割过程时，避免出现错误累积，以及过长的文本导致模型出现长距离建模崩溃的问题的知识文本抽取方法及系统具有重要意义。

技术实现思路

1、本专利技术的目的在于提供一种面向用户问答的知识文本抽取方法及系统，以避免在在基于用户问题的最相关知识文档分割过程时，容易出现错误累积，以及出现过长的文本时导致模型出现长距离建模崩溃的问题。

2、为了解决上述技术问题，在第一技术方案，本专利技术提供了一种面向用户问答的知识文本抽取方法，包括以下步骤：

3、构建知识文本数据库；

4、针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本；

5、利用信息熵函数遍历计

6、基于所有排序后相关文本的信息熵，利用得分判断函数遍历计算所有所述排序后相关文本的判断得分，确定所述判断得分最大时的第i个所述排序后相关文本，分割获取前i个所述排序后相关文本作为最佳文本；

7、将所述最佳文本进行拼装，将拼装后的最佳文本作为回答输出给用户。

8、在第一技术方案的一些实施例中，所述信息熵函数，表示如下：

9、

10、所述得分判断函数，表示如下：

11、

12、上式中，f(fi,fi―1)为带惩罚的得分，f(fi,fi―1)表示为f(fi,fi―1)＝p(x)是指x1在前i个排序后相关文本中出现的概率，fi为第i个排序后相关文本的信息熵，stli为第i个排序后相关文本长度，stlmax为超参数，tqi为第i个排序后相关文本的混合得分。

13、在第一技术方案的一些实施例中，在所述构建知识文本数据库，这一过程中，具体包括以下步骤：收集知识文档，对所述知识文档进行向量化处理，并进行文本分割，得到分割后文本向量；利用卷积密度聚类算法对所述分割后文本向量进行聚类分析，得到聚类类簇集合；利用textrank算法对所述聚类类簇集合进行类内排序，并储存构建为所述知识文本数据库。

14、在第一技术方案的一些实施例中，在利用改进的卷积密度聚类算法对所述分割后文本向量进行聚类分析，得到聚类类簇集合，这一步骤中，具体包括以下步骤：利用一维卷积方法对所述分割后文本向量进行降维卷积，得到降维卷积后文本向量；利用dbscan算法对所述降维卷积后文本向量进行聚类处理，得到所述聚类类簇集合。

15、在第一技术方案的一些实施例中，在针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本，这一步骤中，具体包括以下步骤：针对用户提出的问题，在所述知识文本数据库中检索最匹配的知识文本；基于所述最匹配的知识文本在所述知识文本数据库筛选与所述知识文本相同文档相同类簇的语句段落集合；利用混合得分公式对所述语句段落集合进行排序，得到所述排序后相关文本。

16、在第一技术方案的一些实施例中，所述混合得分公式，表示如下：

17、

18、上式中，tqi为混合得分，trsi为textrank计算得分，qasi为提出的问题与排序后相关文本的相似度，max({trs1,…,trsn})为textrank计算最高得分。

19、在第二技术方案，本专利技术提供了一种面向用户问答的知识文本抽取系统，其特征在于，应用了权利要求1至权利要求6任一项所述的一种面向用户问答的知识文本抽取方法，包括：

20、构建模块，用于构建知识文本数据库；

21、检索模块，用于针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本；

22、获取模块，用于利用信息熵函数遍历计算所有所述排序后相关文本，得到所有排序后相关文本的信息熵，并基于所有排序后相关文本的信息熵，利用得分判断函数遍历计算所有所述排序后相关文本的判断得分，确定所述判断得分最大时的第i个所述排序后相关文本，分割获取前i个所述排序后相关文本作为最佳文本；

23、拼装模块，用于将所述最佳文本进行拼装，将拼装后的最佳文本作为回答输出给用户。

24、本专利技术的较为突出的有益效果如下：

25、本方案引入了一种改进的边缘惩罚方法，将排序后相关文本的原始长度、排序后相关文本的信息熵和带惩罚的得分输入至得分判断函数，遍历计算所有排序后相关文本得到判断得分，当达到判断得分最优时的前i个排序后相关文本即就是当前用户提问的最佳知识文本分割获取，在采用此种设置方法后，一方面，相比传统的惩罚方法，往往依靠的是简单的引入超参数作为惩罚率设置，这是一种具有明显经验主义的行为，因此本专利技术引入了一种基于信息熵的做法来实现这一惩罚，基于信息熵方法度量增加文本前后文本的信息熵变化情况，来确保信息稳定性，当信息不稳定时进行及时的惩罚，能够避免错误累积；另一方面，能够避免层次复合的问题，若用户提问为子问题能够避免知识文本过长的情况，高效的利用模型可以理解和生成的最小意义单位。

本文档来自技高网...

【技术保护点】

1.一种面向用户问答的知识文本抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向用户问答的知识文本抽取方法，其特征在于，

3.根据权利要求1所述的面向用户问答的知识文本抽取方法，其特征在于，在所述构建知识文本数据库，这一过程中，具体包括以下步骤：

4.根据权利要求3所述的面向用户问答的知识文本抽取方法，其特征在于，在利用卷积密度聚类算法对所述分割后文本向量进行聚类分析，得到聚类类簇集合，这一步骤中，具体包括以下步骤：

5.根据权利要求1所述的面向用户问答的知识文本抽取方法，其特征在于，在针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本，这一步骤中，具体包括以下步骤：

6.根据权利要求5所述的面向用户问答的知识文本抽取方法，其特征在于，所述混合得分公式，表示如下：

7.一种面向用户问答的知识文本抽取系统，其特征在于，应用了权利要求1至权利要求6任一项所述的一种面向用户问答的知识文本抽取方法，包括：

【技术特征摘要】

1.一种面向用户问答的知识文本抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向用户问答的知识文本抽取方法，其特征在于，

3.根据权利要求1所述的面向用户问答的知识文本抽取方法，其特征在于，在所述构建知识文本数据库，这一过程中，具体包括以下步骤：

【专利技术属性】
技术研发人员：郭利荣，李洪海，梁晓丹，李金漳，
申请(专利权)人：中数通信息有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人