基于句子向量的文本聚类分析方法及系统技术方案

技术编号:31312169 阅读:79 留言:0更新日期:2021-12-12 21:46
本发明专利技术提供了一种基于句子向量的文本聚类分析方法,包括如下步骤:步骤S1:句子嵌入程序,得到句子向量;步骤S2:将句子向量作为文本聚类程序的输入,得到文本聚类程序的输出类别标签;步骤S3:运行文本聚类程序。本发明专利技术让计算机具备文字阅读能力,帮助客户自动化处理海量文本数据,提升文字处理效率和文本挖掘深度,降低人工成本;本发明专利技术在研究文本向量的生成方法的基础上,深入研究了文本向量化后的聚类方法和相关理论,结合了多种词嵌入和中文分词方法对向量化后的聚类效果进行分析,能够从海量文本中总结出需求文档的撰写规律,对需求文档实现自动解析并从内部文档资料等长篇幅的文件进行分析,从大量的文本数据中提炼出有价值的信息。的信息。的信息。

【技术实现步骤摘要】
基于句子向量的文本聚类分析方法及系统


[0001]本专利技术涉及机器学习和自然语言处理的
,具体地,涉及基于句子向量的文本聚类分析方法及系统。

技术介绍

[0002]机器学习是对能通过经验自动改进的计算机算法的研究。
[0003]自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够可读并理解。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词,形成以最小词性为单位,且富含语义的词项单元。
[0004]文本聚类主要依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。
[0005]词向量又叫Word嵌入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于句子向量的文本聚类分析方法,其特征在于,所述方法包括如下步骤:步骤S1:句子嵌入程序,得到句子向量;步骤S2:将句子向量作为文本聚类程序的输入,得到文本聚类程序的输出类别标签;步骤S3:运行文本聚类程序。2.根据权利要求1所述的基于句子向量的文本聚类分析方法,其特征在于,所述步骤S1包括计算词向量的加权平均值,使用如下公式:其中:w表示一个单词word;Weight(w)表示一个单词的加权平均值;a表示一个超参数;p(w)是词频。3.根据权利要求1所述的基于句子向量的文本聚类分析方法,其特征在于,所述步骤S1还包括去除平均向量在第一个分量上的投影,句子向量被定义为向量Cs的极大似然估计,使用如下公式:其中:其中:arg是变元argument的英文缩写;Fw表示frequency of word即词语出现的频率;Cs代表生成的句子向量;

,数学符号,表示与某个量成正比例。∑是一个求和符号;W表示单词;S表示句子;a表示一个超参数;P(w)是词频;V
w
表示词嵌入;Z表示配分函数;为了估计Cs,通过计算一组句子中的第一主成分来估计方向C0,通过将Cs的投影减去它们的第一主成分得到最后的句子嵌入。4.根据权利要求1所述的基于句子向量的文本聚类分析方法,其特征在于,所述步骤S3包括如下步骤:步骤S3.1:设X={a1,a2,a3,...,an}是数据点的集合,

c

是集群的数量;步骤S3.2:随机初始化c集群中心;步骤S3.3:计算变换空间中每个数据点与聚类中心的距离,使用如下公式:当时,
其中:X={a1,a2,a3,...,an}表示数据点的集合,集合内a1、a2、a3分别代表每个数据点;D表示可微符号;数学符号∈表示属于,元素和集合之间的关系;∑是一个求和符号;||为绝对值符号;C
th
集合簇用π
c
表示;m
c
表示聚类平均值π
c
;Ф(a
i
)表示变换空间中的数据点a
i
;Ф(a
i
)
·
Ф(a
j
)=exp

(||ai

aj||)*q对于高斯核而言;Ф(a
i
)
·
Ф(a
j
)=(c+a
i
a
j
)^d对于多项式核而言。5.根据权利要求1所述的基于句子向量的文本聚类分析方法,其特征在于,所述步骤S3还包括:步骤S3.4:指定数据点到距离最小的聚类中心;步骤S3.5:直到数据点重新分配,重复步骤S3。6.一种...

【专利技术属性】
技术研发人员:朱天宁王盼盼李德启
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1