基于主题模型的同义词自动发现方法及其系统技术方案

技术编号:19964334 阅读:73 留言:0更新日期:2019-01-03 12:52
本发明专利技术公开了一种基于主题模型的同义词自动发现方法,至少包括以下步骤:导入待发现同义词的数据;根据数据库的信息对导入的数据进行分词处理;构建主题模型并进行主题模型聚类;对主题聚类进行最小相关聚类;输出同义词。本发明专利技术不需要先验知识,和手工标注,实现同义词的自动聚类,提高了同义词发现的效率;并在一定程度上解决了语义近似性的问题,实施过程中除最后筛选外无需手工干预,从而对同义词自动发现的效率有较大的提升。

Automatic synonym discovery method and system based on topic model

The invention discloses an automatic synonym discovery method based on subject model, which includes at least the following steps: importing data of synonyms to be found; segmenting imported data according to database information; constructing subject model and clustering subject model; clustering subject clusters with minimum correlation; and outputting synonyms. The invention does not need prior knowledge and manual labeling, realizes automatic clustering of synonyms, improves the efficiency of synonym discovery, solves the problem of semantic approximation to a certain extent, and does not need manual intervention in the implementation process except for final screening, thereby greatly improving the efficiency of synonym automatic discovery.

【技术实现步骤摘要】
基于主题模型的同义词自动发现方法及其系统
本专利技术涉及自然语言处理
,尤其涉及一种基于主题模型的同义词自动发现方法及其系统。
技术介绍
随着信息化时代的发展,网络文本数据的规模越来越大,因此对自然语言的处理也渐渐变得尤为重要,基于新出现的词汇也越来越多,语义自动分析技术、如同义词自动发现技术的重要性也日渐体现。现有主流同义词自动发现算法需要先验知识以构建同义词发现的参考文本模式,这限制了同义词发现的效率;而另外一种参考文本模式匹配法,需要事先手工对已知词汇的词性、语义进行标注,构建参考文本模式。参考图1可见,现有的系统中对于同义词的发现,都需要辅以手工筛选,由于自动发现的同义词的方法存在一定错误率,目前的同义词发现方法均有效率低的问题。目前在专利申请号为CN201410156107.5的申请中,要求保护一种同义词的确定、搜索方法和服务器,但是根据申请文件中对技术方案的理解,对比文件给出的方案也并不能提高同义词发现的效率。
技术实现思路
本专利技术目的是提出一种基于主题模型的同义词自动发现方法,通过分析词的互现概率,构建主题模型,利用吉布斯采样法将同一主题的词聚集到同一聚类,再用迭本文档来自技高网...

【技术保护点】
1.一种基于主题模型的同义词自动发现方法,其特征在于,至少包括以下步骤:导入待发现同义词的数据;根据数据库的信息对导入的数据进行分词处理;构建主题模型并进行主题模型聚类;对主题聚类进行最小相关聚类;输出同义词。

【技术特征摘要】
1.一种基于主题模型的同义词自动发现方法,其特征在于,至少包括以下步骤:导入待发现同义词的数据;根据数据库的信息对导入的数据进行分词处理;构建主题模型并进行主题模型聚类;对主题聚类进行最小相关聚类;输出同义词。2.根据权利要求1所述的基于主题模型的同义词自动发现方法,其特征在于,在输出同义词步骤之后还包括人工筛选同义词的步骤。3.根据权利要求1所述的基于主题模型的同义词自动发现方法,其特征在于,所述的主题模型可为隐狄利克雷分配模型,聚类的步骤至少包括:从狄利克雷分布Dirα中取样生成文档i的主题分布θi,其中α是由用户预设的狄利克雷分布的参数,表示主题在文档上分布的均衡程度;θ是Dirα上的一个采样;从主题的分布θi中采样生成文档i第j个词的主题zi,j;从狄利克雷分布Dirβ(β是狄利克雷分布的参数)中取样生成主题Zi,j上词的分布从词语的分布中采样最终生成词语wi,j。4.根据权利要求1所述的基于主题模型的同义词自动发现方法,其特征在于,所述的主题模型的聚类在所有其他词所归属的主题确定的前置条件下,某个词zi属于主题j的后验概率P为:其中,W是总的词数,T是总的隐含主题数,α、β如上所述是用户设定的参数,指在排除掉zi之后,wi中属于主题j的词的数量,以此类推。指在排除掉zi之后,wi中属于文档i的词的数量。5.根据权利要求4所述的基于主题模型的同义词自动发现方法,其特征在于,所述的主题聚类为吉布斯采样法的主题聚类,至少包括以下步骤:A、文档集中的每一个词都随机的分派到一个主题;B...

【专利技术属性】
技术研发人员:曲德君李进岭曹大军杨冠军郁抒思
申请(专利权)人:上海新飞凡电子商务有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利