The invention discloses a construction method of building and system for topic clustering model of the corpus, which through the theme selected for each document in the corpus, add related words and each topic is used to extract selected words and words of each selected, according to each document from the topic by document topic distribution, according to the words the distribution of Related words for each topic selected words and each word the topic; then according to the distribution of subject and topic document word distribution, calculate the probability of each word in each document by value, and the probability of each document in the maximum value of words as the document theme name, the name of the theme to identify the clustering on each document in the corpus; it considers not only the internal document themes and words, Besides, it also considers the Related words outside the document, which makes the model output more accurate and closer to the user's desired results.
【技术实现步骤摘要】
用于语料库的主题聚类模型构建系统及其构建方法
本专利技术涉及人工智能
,特别是一种用于语料库的主题聚类模型构建系统及对应的方法。
技术介绍
语料库是指经科学取样和加工的大规模电子文本库。语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,广泛应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。在智能对话或其它有应用到人工智能对话技术、机器人客服等相关技术的领域里,语料库都是必不可少的基础资料,且是支撑起整个系统的关键。语料库的采集或生成方式有多种形式,包括:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。但不管这些语料库如何得到,最终在正式使用前都需要先对语料库进行分类、标识等聚类管理,然后才能将其更好的应用于实际工作中 ...
【技术保护点】
一种用于语料库的主题聚类模型构建系统,其特征在于,包括:主题提取模块,对语料库中的每篇文档进行抽取主题;词语提取模块,对抽取的每个主题进行抽取词语;词语关联模块,对抽取的每个词语进行添加关联词语;分布统计模块,根据每篇文档抽取的主题,得到文档的主题分布;根据每个主题抽取的词语以及每个词语对应的关联词语,得到主题的词语分布;概率统计模块,根据文档的主题分布和主题的词语分布,计算得到每个文档中的每个词语的概率值;结果输出模块,将每个文档中的概率值最大的词语作为该文档的主题名称,并以该主题名称为标识对语料库中的每篇文档进行聚类。
【技术特征摘要】
1.一种用于语料库的主题聚类模型构建系统,其特征在于,包括:主题提取模块,对语料库中的每篇文档进行抽取主题;词语提取模块,对抽取的每个主题进行抽取词语;词语关联模块,对抽取的每个词语进行添加关联词语;分布统计模块,根据每篇文档抽取的主题,得到文档的主题分布;根据每个主题抽取的词语以及每个词语对应的关联词语,得到主题的词语分布;概率统计模块,根据文档的主题分布和主题的词语分布,计算得到每个文档中的每个词语的概率值;结果输出模块,将每个文档中的概率值最大的词语作为该文档的主题名称,并以该主题名称为标识对语料库中的每篇文档进行聚类。2.根据权利要求1所述的一种用于语料库的主题聚类模型构建系统,其特征在于:每篇文档与T个主题的一个多项分布相对应;每个主题进一步与所述词语和所述关联词语的词语集合中的V个词语的一个多项分布相对应。3.根据权利要求1所述的一种用于语料库的主题聚类模型构建系统,其特征在于:所述词语关联模块中,所述关联词语包括:同义词关联词语、近义词关联词语、自定义关联词语。4.根据权利要求3所述的一种用于语料库的主题聚类模型构建系统,其特征在于:所述自定义关联词语,是指将当前文档相关联的外部文档作为关联文档,通过该关联文档进行查找所述词语的关联词语。5.根据权利要求1所述的一种用于语料库的主题聚类模型构建系统,其特征在于:所述概率统计模块中,进一步包括:根据文档的主题分布得到每个文档中的每个主题的概率值p(t|d);根据主题的词语分布得到每个主题中的每个词语的概率值p(w|t);将每个词语的概率值乘以该词语对应主题的概率值计算得到每个文档中的每个词语的概率值p(w|d);即:p(w|d)=p(w|t)*p(t|d)...
【专利技术属性】
技术研发人员:王宇,蔡振华,李稀敏,肖龙源,刘楚,朱敬华,刘晓葳,谭玉坤,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。