一种领域词典的构建方法技术

技术编号:15329766 阅读:104 留言:0更新日期:2017-05-16 13:22
本发明专利技术涉及自然语言处理领域,特别涉及一种领域词典构建方法;在自动获取文本关键词的基础上,对待处理文本进行聚类,形成不同的主题文本集;在欲构建词典的领域文本集中通过人工查看,选取一部分种子词。在此基础上分析出聚类后的主题文本集与所选领域种子词的关系远近,仅保留关系较密切的主题文本集来进行领域词典扩展。在相关领域内结合算法进行领域词典的自动扩展,得到对应的词典。本发明专利技术方法在自动区分文本主题领域的基础上通过少量的部分种子词对想要构建的领域词典进行自动扩充;词典的构建效率较高,准确性高,领域的针对性很强;在文本分析和自然语言处理领域有广泛的应用前景。

Method for constructing Field Dictionary

The present invention relates to the field of Natural Language Processing, in particular relates to a method for constructing a domain dictionary; based on the automatic acquisition of text keywords, treats the text clustering, text form different sets; in the field to build the dictionary text concentrated through artificial view, select a part of seed words. On this basis, we analyze the relationship between the topic set of clustering and the seed word of selected domain, and only retain the relatively close topic set to expand dictionary. In the related domain, the dictionary is automatically expanded by combining the algorithm, and the corresponding dictionary is obtained. The method of the invention by a few seed words to want to build a domain dictionary for automatic expansion based on automatic segmentation of text topic areas; dictionary construction of high efficiency, high accuracy, strong pertinence of the field; and has wide application prospect in the field of text analysis and Natural Language Processing.

【技术实现步骤摘要】
一种领域词典的构建方法
本专利技术自然语言处理领域,特别涉及一种领域词典构建方法。
技术介绍
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能地判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。而情感分析主要有两大类方法,一类是基于机器学习的方法,另一类是基于词典的方法。基于机器学习的方法首先是构建分类器,将待分析文本输入到分类器中进行进行分析。这种方法的局限在于,构建分类器,需要大规模语料来对分类器进行训练,而且分类特征的选择也非常具有挑战,特征选择的优劣将直接影响分类器的性能。基于词典的方法,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种领域词典构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成不同的领域或者主题文本集;根据分析需要,选取少量的对应领域种子词,在此基础上分析出聚类后的领域或者主题文本集与所选领域种子词的关系远近,仅保留关系较密切的领域或者主题文本集作为领域词典扩展的来源。在此基础上结合词语相关性分析算法进行领域词典的自动扩展,进而得到对应的领域词典。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种领域词典构建方法,包含以下实现步骤:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;(3)选取领域的种子词;(4)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;(5)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为领域词存入待扩充的词典中。具体的,本专利技术方法包含分词、去高频词、去停用词的预处理步骤。进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:(2-1)初始时,每个待处理文本各自为一个类;类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用所而自行设定。作为一种优选:所述步骤(5)中候选词与种子词的关联度计算公式为:其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。作为一种优选,所述步骤(2)中,N=3。作为一种优选,所述步骤(3)中,所选取的种子词的个数为50-200个。进一步的,所述步骤(3)顺序可移到所述步骤(1)和,或者步骤(2)之前。作为一种优选,所述步骤(4)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集。作为一种优选,所述步骤(5)中候选词与种子词的阈值设置为MI(word1,word2)=0.2,当文本集中词汇与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中。与现有技术相比,本专利技术的有益效果:本专利技术提供一种领域词典构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成不同的主题文本集;并选取一定数量的领域种子词,通过种子词来自动发现聚类后的待处理文本集与待扩展领域的关系远近,自动识别出聚类后文本的领域类型的基础上,仅保留关系密切的主题文本集来进行领域词典扩展。词典构建的准确性更强,构建效率更高。本专利技术方法,选取一部分种子词,种子词的选取可根据分析的具体方向而定,因此更加具有针对性,在种子词选取和领域自动发现的基础上,计算种子词与源文本集的文本中词的关联程度远近,保留关系密切的词作为该领域词典的扩充词;相比于普通的领域词典,本专利技术方法所构建的领域词典具有更强灵活。词典的实用性更强,更加适应于具体问题或者主题的文本分析。附图说明:图1为本领域词典的构建方法的实现步骤图。图2为本领域词构建方法步骤(5)的实现过程图。具体实施方式下面结合试验例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。提供一种领域词典构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成不同的主题文本集;在欲构建词典的领域文本集中通过人工查看,选取一部分种子词。在此基础上分析出聚类后的主题文本集与所选领域种子词的关系远近,仅保留关系较密切的主题文本集来进行领域词典扩展。在此基础上再结合算法进行领域词典的自动扩展,得到对应的领域词典。本专利技术方法在自动区分文本主题领域的基础上通过少量的部分种子词对想要构建的领域词典进行自动扩充;词典的构建效率较高,准确性高,领域的针对性很强;在文本分析和自然语言处理领域有广泛的应用前景。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种领域词典构建方法,包含如图1所示的以下实现步骤:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,形成N个主题文本集,其中N为整数且N≥2;(3)选取少量的领域种子词;选取具有明显领域特征的词本文档来自技高网
...
一种领域词典的构建方法

【技术保护点】
一种领域词典构建方法,其特征在于,包含以下实现步骤:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;(3)选取领域的种子词;(4)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;(5)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。

【技术特征摘要】
1.一种领域词典构建方法,其特征在于,包含以下实现步骤:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;(3)选取领域的种子词;(4)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;(5)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。2.如权利要求1所述的方法,其特征在于,所述步骤(1)之前包含:分词、去高频词、去停用词的预处理步骤。3.如权利要求1所述的方法,所述步骤(1)中采用以下计算公式来提取关键词,所述公式为:TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。4.如权利要求3所述的方法,其特征在于:所述步骤(2)中对待处理文本聚类包含以下过程:(2-1)初始时,每个待处理文本各自为一个类;类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关...

【专利技术属性】
技术研发人员:张晓霞刘世林
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1