【技术实现步骤摘要】
基于句子向量的文本聚类分析方法及系统
[0001]本专利技术涉及机器学习和自然语言处理的
,具体地,涉及基于句子向量的文本聚类分析方法及系统。
技术介绍
[0002]机器学习是对能通过经验自动改进的计算机算法的研究。
[0003]自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够可读并理解。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词,形成以最小词性为单位,且富含语义的词项单元。
[0004]文本聚类主要依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。
[0005]词 ...
【技术保护点】
【技术特征摘要】
1.一种基于句子向量的文本聚类分析方法,其特征在于,所述方法包括如下步骤:步骤S1:句子嵌入程序,得到句子向量;步骤S2:将句子向量作为文本聚类程序的输入,得到文本聚类程序的输出类别标签;步骤S3:运行文本聚类程序。2.根据权利要求1所述的基于句子向量的文本聚类分析方法,其特征在于,所述步骤S1包括计算词向量的加权平均值,使用如下公式:其中:w表示一个单词word;Weight(w)表示一个单词的加权平均值;a表示一个超参数;p(w)是词频。3.根据权利要求1所述的基于句子向量的文本聚类分析方法,其特征在于,所述步骤S1还包括去除平均向量在第一个分量上的投影,句子向量被定义为向量Cs的极大似然估计,使用如下公式:其中:其中:arg是变元argument的英文缩写;Fw表示frequency of word即词语出现的频率;Cs代表生成的句子向量;
∝
,数学符号,表示与某个量成正比例。∑是一个求和符号;W表示单词;S表示句子;a表示一个超参数;P(w)是词频;V
w
表示词嵌入;Z表示配分函数;为了估计Cs,通过计算一组句子中的第一主成分来估计方向C0,通过将Cs的投影减去它们的第一主成分得到最后的句子嵌入。4.根据权利要求1所述的基于句子向量的文本聚类分析方法,其特征在于,所述步骤S3包括如下步骤:步骤S3.1:设X={a1,a2,a3,...,an}是数据点的集合,
‘
c
’
是集群的数量;步骤S3.2:随机初始化c集群中心;步骤S3.3:计算变换空间中每个数据点与聚类中心的距离,使用如下公式:当时,
其中:X={a1,a2,a3,...,an}表示数据点的集合,集合内a1、a2、a3分别代表每个数据点;D表示可微符号;数学符号∈表示属于,元素和集合之间的关系;∑是一个求和符号;||为绝对值符号;C
th
集合簇用π
c
表示;m
c
表示聚类平均值π
c
;Ф(a
i
)表示变换空间中的数据点a
i
;Ф(a
i
)
·
Ф(a
j
)=exp
‑
(||ai
‑
aj||)*q对于高斯核而言;Ф(a
i
)
·
Ф(a
j
)=(c+a
i
a
j
)^d对于多项式核而言。5.根据权利要求1所述的基于句子向量的文本聚类分析方法,其特征在于,所述步骤S3还包括:步骤S3.4:指定数据点到距离最小的聚类中心;步骤S3.5:直到数据点重新分配,重复步骤S3。6.一种...
【专利技术属性】
技术研发人员:朱天宁,王盼盼,李德启,
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。