The present invention relates to the field of Natural Language Processing, in particular relates to a method for constructing a domain dictionary; based on the automatic acquisition of text keywords, treats the text clustering, text form different sets; in the field to build the dictionary text concentrated through artificial view, select a part of seed words. On this basis, we analyze the relationship between the topic set of clustering and the seed word of selected domain, and only retain the relatively close topic set to expand dictionary. In the related domain, the dictionary is automatically expanded by combining the algorithm, and the corresponding dictionary is obtained. The method of the invention by a few seed words to want to build a domain dictionary for automatic expansion based on automatic segmentation of text topic areas; dictionary construction of high efficiency, high accuracy, strong pertinence of the field; and has wide application prospect in the field of text analysis and Natural Language Processing.
【技术实现步骤摘要】
一种领域词典的构建方法
本专利技术自然语言处理领域,特别涉及一种领域词典构建方法。
技术介绍
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能地判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。而情感分析主要有两大类方法,一类是基于机器学习的方法,另一类是基于词典的方法。基于机器学习的方法首先是构建分类器,将待分析文本输入到分类器中进行进行分析。这种方法的局限在于,构建分类器,需要大规模语料来对分类器进行训练,而且分类特征的选择也非常具有挑战,特征选择的优劣将直接影响分类器的性能。基于词典的方法,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。 ...
【技术保护点】
一种领域词典构建方法,其特征在于,包含以下实现步骤:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;(3)选取领域的种子词;(4)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;(5)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。
【技术特征摘要】
1.一种领域词典构建方法,其特征在于,包含以下实现步骤:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;(3)选取领域的种子词;(4)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;(5)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。2.如权利要求1所述的方法,其特征在于,所述步骤(1)之前包含:分词、去高频词、去停用词的预处理步骤。3.如权利要求1所述的方法,所述步骤(1)中采用以下计算公式来提取关键词,所述公式为:TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。4.如权利要求3所述的方法,其特征在于:所述步骤(2)中对待处理文本聚类包含以下过程:(2-1)初始时,每个待处理文本各自为一个类;类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关...
【专利技术属性】
技术研发人员:张晓霞,刘世林,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。