System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及心理健康评估,尤其是一种基于文本聚类的心理健康咨询辅助方法、系统和可读介质。
技术介绍
1、文本聚类是文本数据处理的重要方法之一。目前的文本聚类方法已经取得了广泛的应用,但在心理咨询行业中,仍缺乏较好的应用。文本聚类可以帮助心理咨询师快速找到与咨询者提出的问题比较相似的心理案例,从而辅助心理咨询师对咨询者进行更好的心理疏导。在传统的心理咨询文本聚类中,大多数方法采用词袋模型或者word2vec模型对文本进行特征向量提取,然后将其放入k-means模型中进行聚类,这样虽然能够快速得到结果,但是仍然存在一些问题:1)传统的特征向量表示模型会造成高维稀疏和忽略单词位置及上下文内容,无法准确理解语义。2)k-means模型对异常值和噪声较为敏感,有可能会影响整体的聚类效果。
技术实现思路
1、为了克服上述现有技术中传统的心理咨询文本聚类,无法准确理解语义,聚类效果差的缺陷,本专利技术提出了一种基于文本聚类的心理健康咨询辅助方法,定义了新的文本聚类模型,可提高文本聚类精度,从而提高心理健康状态评估的效果。
2、本专利技术提出的一种基于文本聚类的心理健康咨询辅助方法,包括以下步骤:
3、首先获取由文本预处理模块、编码器和聚类模块构成的文本聚类模型;
4、然后对采集的心理数据进行文本处理,将文本格式的心理数据输入文本聚类模型,文本预处理模块用于获取文本格式的心理数据的向量表示,编码器对所述向量表示进行编码,编码器输出编码特征向量至聚类模块,聚类模
5、获取预测概率分布中概率值最大的一个或者多个心理健康类别作为心理健康类别预测值。
6、优选的,令编码特征向量zi归属于第k个先验类的概率记作qik,聚类模块根据以下公式计算qik;
7、令f(i,k)=||zi-µk||2
8、qik=[[1+f(i,k)]/α]-(α+1)/2/∑mk=1[1+f(i,k)/α]-(α+1)/2+λf(i,k)/∑mk=1f(i,k)
9、其中,zi表示心理数据样本的编码特征向量,µk表示第k个先验类的簇心向量,m为心理健康类别的数量;α是t分布的自由度,λ为设定的超参数,f(i,k)表示过渡项,||·||2表示一范数的平方。
10、优选的,文本聚类模型的获取包括以下步骤:
11、s1、构建心理数据样本和基础模型,心理数据样本为标注心理健康类别的文本格式心理数据;基础模型包括依次连接的文本预处理模块、编码器和聚类模块;
12、s2、选取多个心理数据样本输入基础模型,针对各心理数据样本,文本预处理模块将文本格式心理数据转换为向量表示,编码器基于向量表示进行编码以输出编码特征向量,聚类模块对编码特征向量进行聚类,获取心理数据样本属于各簇的概率;聚类簇的数量为心理健康类别的数量;
13、s3、根据预测概率计算心理数据样本归属于各簇的近似概率;
14、s4、计算心理数据样本属于各簇的概率分布与近似概率分布的离散度作为模型损失;
15、s5、判断模型损失是否收敛;否,则根据模型损失更新编码器和聚类模块,然后返回步骤s2;是,则将基础模型作为文本聚类模型,并固定聚类模块中的簇作为先验类。
16、优选的,令第i个心理数据样本归属于第k个簇的预测概率记作qik,第i个心理数据样本归属于第k个簇的近似概率记作pik;s3中根据以下公式计算pik;
17、pik=qik2/[∑ni=1qik∑mk=1(qik2/∑ni=1qik)]
18、其中,n为s2中选取的心理数据样本数量,m为心理健康类别的数量。
19、优选的,s4中,模型损失采用kl散度。
20、优选的,文本预处理模块采用预训练的文本处理模型。
21、优选的,文本预处理模块采用预训练的elmo模型,聚类模块采用k-means聚类方法。
22、优选的,s1中的编码器从预训练后的自编码网络psyae中提取。
23、本专利技术提出的一种基于文本聚类的心理健康咨询辅助系统,包括存储器和处理器,存储器中存储有计算机程序,处理器连接存储器,处理器用于执行所述计算机程序,以实现所述的基于文本聚类的心理健康咨询辅助方法。
24、本专利技术提出的一种可读介质,存储有计算机程序,所述计算机程序被执行时用于实现所述的基于文本聚类的心理健康咨询辅助方法。
25、本专利技术的优点在于:
26、(1)本专利技术提出的基于文本聚类的心理健康咨询辅助方法,利用预训练的文本预处理模块获取心理数据的向量表示,向量表示本质为心理数据文本的高维特征向量,向量表示输入编码器中,得到低维的向量表示的编码特征向量,然后聚类模块结合该低维的编码特征向量进行聚类,大大提高了聚类效率和精度,优化了文本聚类效果,从而实现更加精确的心理健康状态评估。
27、(2)利用本专利技术的文本聚类方法,可以帮助心理咨询师更好地对咨询者提出的问题进行针对性的指导,给予反馈意见,提高智能化心理健康状态评估的效率和精度。
28、(3)本专利技术中,结合聚类模块的输出构造预测概率和近似概率两种分布的散度损失函数,以联合训练编码器和聚类模块,提高了聚类效果。
29、(4)本专利技术首先将采集到的心理咨询相关的文本数据进行分词、去除停用词等操作;然后利用预训练好的模型将上述的文本进行向量化,再使用池化和正则化操作提取特征,将提取的文本特征转换为向量表示后作为编码器的输入。编码器从预先训练的自编码网络中提取。本专利技术中,文本预处理模块和编码器均进行了预训练,从而大大提高了模型收敛速度,且编码器在模型优化中进一步更新,使得编码器进一步专注于影响心理健康状态的特征,提高文本聚类精度。
本文档来自技高网...【技术保护点】
1.一种基于文本聚类的心理健康咨询辅助方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,文本聚类模型的获取包括以下步骤:
3.如权利要求2所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,令第i个心理数据样本归属于第k个簇的预测概率记作qik,第i个心理数据样本归属于第k个簇的近似概率记作pik;S3中根据以下公式计算pik;
4.如权利要求2所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,S4中,模型损失采用KL散度。
5.如权利要求2所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,文本预处理模块采用预训练的文本处理模型。
6.如权利要求5所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,文本预处理模块采用预训练的ELMo模型,聚类模块采用K-Means聚类方法。
7.如权利要求2所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,S1中的编码器从预训练后的自编码网络PsyAE中提取。
8.一种基于文本聚类的心理健康咨询
9.一种可读介质,其特征在于,存储有计算机程序,所述计算机程序被执行时用于实现如权利要求1-7任一项所述的基于文本聚类的心理健康咨询辅助方法。
...【技术特征摘要】
1.一种基于文本聚类的心理健康咨询辅助方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,文本聚类模型的获取包括以下步骤:
3.如权利要求2所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,令第i个心理数据样本归属于第k个簇的预测概率记作qik,第i个心理数据样本归属于第k个簇的近似概率记作pik;s3中根据以下公式计算pik;
4.如权利要求2所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,s4中,模型损失采用kl散度。
5.如权利要求2所述的基于文本聚类的心理健康咨询辅助方法,其特征在于,文本预处理模块采用预训练的文本处理模型。
6.如...
【专利技术属性】
技术研发人员:范联伟,孙仁浩,王佐成,顾浩,洪日昌,
申请(专利权)人:数据空间研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。