【技术实现步骤摘要】
本专利技术涉及语言化分析,具体为一种基于大语言模型的健康需求语言化分析系统及方法。
技术介绍
1、大语言模型是指规模庞大的自然语言处理模型,通常由深度学习算法构建而成。这些模型在处理文本数据和语言任务时表现出色,能够理解和生成自然语言文本;
2、在通过大语言模型去理解用户的健康需求时,由于用户有些时候无法准确或者完整地描述自己的健康状况,导致大语言模型并不能准确理解用户的健康需求;同时,大语言模型也无法准确捕捉用户的情绪状态或心理需求,只能根据转化过来的文字描述提供一般性的建议,导致无法给每个用户提供恰当的支持或建议。
技术实现思路
1、本专利技术的目的在于提供一种基于大语言模型的健康需求语言化分析系统及方法,以解决上述
技术介绍
中提出的问题。
2、为了解决上述技术问题,本专利技术提供如下技术方案:一种基于大语言模型的健康需求语言化分析方法,分析方法包括以下步骤:
3、步骤s100:获取用户历史每次咨询记录的症状描述文本,对症状描述文本进行关键词提取得到关键词集合;通过相邻两次咨询记录的时间间隔和关键词集合之间的相似度比较,判断是否对前一次咨询记录进行无效咨询标记;根据用户历史所有咨询记录中任意两组关键词集合之间的相似度,对咨询记录进行类型划分,并确认同类咨询记录的影响因子;
4、步骤s200:获取同类咨询记录中,不存在无效咨询标记的咨询结果,通过分析任意两个咨询结果之间的结果相似度,计算得到同类咨询记录的期望结果相似度;分析各类影响因
5、步骤s300:提取用户实时输入的文本内容对应的关键词集合,确认文本内容的咨询类型;获取咨询类型对应的影响因子,判断是否对用户进行内容补充提醒;将文本内容输入大语言模型,得到相应的咨询结果;
6、步骤s400:设定一个时间响应阈值,若用户在时间响应阈值里输入新文本内容,则提取新文本内容的新关键词集合,通过相邻两组关键词集合之间的相似度,判断用户实时输入的文本内容对应的咨询结果是否为无效咨询;对咨询结果为无效咨询的原因进行分析,并对大语言模型进行重新训练。
7、进一步的,步骤s100包括以下步骤:
8、步骤s101:设定用户历史第i次咨询记录的症状描述文本为ti,读取症状描述文本ti的生成时间点ti;提取症状描述文本ti中的若干个关键词,生成症状描述文本ti的关键词集合wi=w1,w2,…,wr,其中,r为症状描述文本ti中的关键词总数;
9、步骤s102:获取第i+1次咨询记录的生成时间点为ti+1,得到第i次咨询记录与第i+1次咨询记录的间隔时间为δti,i+1=ti+1-ti,设定一个时间响应阈值θ,若δti,i+1<θ,则获取第i+1次咨询记录的症状描述文本ti+1对应的关键词集合wi+1,统计两组关键词集合中存在相同关键词的数量,计算得到两组关键词集合的相似度为其中,ni,i+1为第i组关键词集合和第i+1组关键词集合的相同关键词数量,max()为最大值选取函数,ni为第i组关键词集合的关键词数量,ni+1为第i+1组关键词集合的关键词数量;设定一个相似度阈值δ,若si,i+1>δ,则对第i次咨询记录进行无效咨询标记;当两次咨询记录的间隔时间较短且两次的关键词集合较为相似时,则说明前一次咨询记录的反馈结果并没有被用户采纳,因此用户需要进行第二次相关内容的查询;对咨询记录进行无效咨询标记,有利于后续对模型进行调整时,便于提取影响因子和训练对象;
10、步骤s103:通过是否存在无效咨询标记将历史所有咨询记录分类两类;随机从两类咨询记录中各提取一次咨询记录,比较两次咨询记录中两组关键词集合之间的相似度,若相似度大于相似度阈值,则提取两组关键词集合之间的差异关键词;当两次咨询记录的相似度较高,但是一个存在无效咨询标记,另一个不存在标记时,那么不存在标记的咨询记录中存在影响咨询结果的影响因子,因为多了影响因子的相关内容,使得最后生成的结果发生变化,且被用户采纳;
11、步骤s104:获取历史所有咨询记录中,任意两次咨询记录对应的两组关键词集合的相似度,将相似度大于相似度阈值的若干次咨询记录划分为同类咨询记录,获取同类咨询记录中的所有差异关键词,对所有差异关键词按照所属类型进行分类,得到若干类影响因子;例如:病情持续时间、疼痛部位以及精神状态等都可以为差异关键词的所述类型,所述类型是对一类差异关键词的一个统称。
12、进一步的,步骤s200包括以下步骤:
13、步骤s201:获取同类咨询记录中,所有不存在无效咨询标记的咨询记录,提取每次咨询记录的咨询结果;通过比较任意两个咨询结果对应的文本内容,计算得到两个咨询结果之间的结果相似度,对两个咨询结果进行结果相似度的比较,可以通过文本内容比对、数据挖掘技术、专业领域的专用软件等技术手段进行比较;对所有结果相似度进行求和得到结果相似度总值sumk,其中,sumk为第k类咨询记录的结果相似度总值,获取第k类咨询记录中计算出的结果相似度数量为mk,计算得到第k类咨询记录的期望结果相似度为将同类咨询记录中被用户采纳的咨询结果作为期望结果,通过与期望结果进行比对,可以准确判断咨询结果是否会被用户采纳,提高效率;
14、步骤s202:获取每类影响因子中各个关键词在所有存在无效咨询标记的咨询记录中,作为差异关键词的次数为x,设定第z类影响因子的次数为xz,得到第z类影响因子的关键占比为其中,x为存在无效咨询标记的咨询记录次数;按照关键占比的大小从大到小进行排序,设置各类影响因子的影响优先顺序;影响因子的关键占比越高,则说明影响程度越大,有利于后续对模型进行调整时,提醒用户优先补充的内容,尽可能提高用户采纳反馈结果的可能性;
15、步骤s203:对大语言模型添加各类影响因子,将存在无效咨询标记的咨询记录输入大语言模型中,按照各类影响因子的影响优先顺序,添加一个影响因子的对应内容,经过大语言模型处理后得到一个新咨询结果,随机提取一次不存在无效咨询标记的咨询记录的咨询结果,得到两次咨询结果之间的相似度d',若d'<dk,则继续添加下一个影响因子的对应内容,直至d'≥dk为止;
16、步骤s204:设定通过大语言模型处理第k类咨询记录时,往大语言模型中添加的影响因子数量为yk,从第k类咨询记录中所有存在无效咨询标记的咨询记录中,选取数量为a×x个咨询记录作为训练集,将剩余(1-a)×x个咨询记录作为测试集,其中,a为常数系数;若训练集中存在若干咨询结果的相似度小于期望结果相似度,则往大语言模型中添加新的影响因子,直至训练集中所有咨询记录的咨询结果的相似度大于期望结果相似度;通过测试集对大语言模型进行测试,若存在若干个咨询结果的相似度小于期望结果相似度,则从测试集中提取若干个咨询记录放入训练集中,对大语言模型进行重新训练。
...
【技术保护点】
1.一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述分析方法包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述步骤S100包括以下步骤:
3.根据权利要求2所述的一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述步骤S200包括以下步骤:
4.根据权利要求3所述的一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述步骤S300包括以下步骤:
5.根据权利要求4所述的一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述步骤S400包括以下步骤:
6.应用于权利要求1-5中任一项所述的一种基于大语言模型的健康需求语言化分析方法的健康需求语言化分析系统,其特征在于:所述分析系统包括历史数据分析模块、模型训练模块、实时数据反馈模块、模型调整模块;
7.根据权利要求6所述的健康需求语言化分析系统,其特征在于:所述历史数据分析模块包括无效咨询判断单元和影响因子设定单元;
8.根据权利要求6所述的健康需求语言化分析系统,其特
9.根据权利要求6所述的健康需求语言化分析系统,其特征在于:所述实时数据反馈模块包括咨询类型确认单元和结果获取单元;
10.根据权利要求6所述的健康需求语言化分析系统,其特征在于:所述模型调整模块包括新集合获取单元和咨询分析单元;
...【技术特征摘要】
1.一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述分析方法包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述步骤s100包括以下步骤:
3.根据权利要求2所述的一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述步骤s200包括以下步骤:
4.根据权利要求3所述的一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述步骤s300包括以下步骤:
5.根据权利要求4所述的一种基于大语言模型的健康需求语言化分析方法,其特征在于:所述步骤s400包括以下步骤:
6.应用于权利要求1-5中任一项所述的一种基于大语言模型的健...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。