用于自然语言处理的领域词典生成系统技术方案

技术编号:15551888 阅读:77 留言:0更新日期:2017-06-08 01:48
本发明专利技术涉及自然语言处理领域,特别涉及用于自然语言处理的领域词典生成系统;所述系统在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建。用户将待处理文本和领域种子词输入本系统中,本系统在自动获取文本关键词的基础上对待处理文本进行聚类,进而分析出聚类后的主题文本集与所选领域种子词的关系远近,在关系较密切的主题文本集内结合算法进行词典的自动扩展。本发明专利技术系统在自动区分文本主题领域的基础上通过少量种子词实现领域词典的自动扩充;词典的构建效率较高,准确性高,领域的针对性很强;为文本分析和自然语言处理提供有力工具。

Domain dictionary generation system for Natural Language Processing

The present invention relates to the field of Natural Language Processing, in particular to a domain dictionary generation system of Natural Language Processing; the system based on automatic segmentation of text topic field, according to the construction of automatic seed word corresponding domain dictionary. The user will be processed and the text field seed word input to this system, the system treats the text clustering based on automatic acquisition of text keywords, and then analyzes the relationships between the text clustering and the selected field seed words, automatic expansion in the close relation between theme text set by algorithm. The dictionary. The system of the invention through the automatic expansion of a small amount of seed words to realize domain dictionary based on automatic segmentation of text topic field; dictionary construction of high efficiency, high accuracy, strong pertinence of the field; provide a powerful tool for the analysis of the text and Natural Language Processing.

【技术实现步骤摘要】

本专利技术自然语言处理领域,特别涉及用于自然语言处理的领域词典生成系统
技术介绍
大数据时代的到来为世界创造了新的机会,对大数据进行分析利用体现大数据的价值,自然语言处理在大数据分析中占据重要的地位,面对海量的网络文本资源,通过运用自然语言处理的分析方法自动地、智能提取出有用信息,或者判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着重要的实际应用意义。利用分析结果,可以对事情的发展演变进行或者用户喜好正确的预判,进而提前采取相应的措施来实现更大的正面效果。自然语言处理中经常需要使用词典来进行对应的特征抽取,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。然而现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到理想的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。这样的背景下如果能实现:根据用户具体分析需求快速构建针对性强的领域,将有极大节省全手动构建词典的人力物力,然而现有技术中还缺乏能够实现这类词典快速构建功能的相应工具。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供用于自然语言处理的领域词典生成系统,用户只需将待处理文本和领域种子词输入本系统中所述系统就可以实现在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建。为了实现上述专利技术目的,本专利技术提供了以下技术方案:用于自然语言处理的领域词典生成系统,所述系统在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建;所述词典构建包含以下实现过程:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;(3)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;(4)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi本文档来自技高网...
用于自然语言处理的领域词典生成系统

【技术保护点】
用于自然语言处理的领域词典生成系统,其特征在于,所述系统在自动区分待处理文本主题的基础上,根据种子词进行对应领域词典的自动构建;所述词典构建包含以下实现过程:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;(3)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集作为领域词典扩展的源文本集;(4)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。

【技术特征摘要】
1.用于自然语言处理的领域词典生成系统,其特征在于,所述系统在自动区分待处理文本主题的基础上,根据种子词进行对应领域词典的自动构建;所述词典构建包含以下实现过程:(1)提取出待处理文本集中各文本的关键词;(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;(3)统计种子词在各主题文本集中出现的频率;将...

【专利技术属性】
技术研发人员:张晓霞刘世林
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1