The invention discloses a method and device for generating a domain dictionary, which includes acquiring relevant texts in the target domain, obtaining a set of character units according to the relevant texts, including a plurality of character units, which are obtained by combining continuous characters in the relevant texts, and acquiring the cross-correlation degree of each character unit to obtain a set of character units. The original dictionary of the target domain; calculates the contribution of each character unit in the original dictionary to the target domain to obtain the target Dictionary of the target domain. The target dictionary obtained by calculating the degree of cross-correlation and contribution of the present invention is highly correlated with the target field.
【技术实现步骤摘要】
一种领域词典生成方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种领域词典生成方法及装置。
技术介绍
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等;这些互联网产业的兴起与繁荣离不开大量的数据信息分析;大数据分析中自然语言处理占据重要的地位;其中,在自然语言处理分析中基于词典的分析方法具有重要的应用;具体是以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法进行针对性的分析和挖掘;不同的领域所采取的词典也有很大的不同。其中,词典大致分成两大类:一是通用词典,二是领域词典;在具体任务上,领域词典的应用更广。现有的用于生成领域词典的方案多种多样,但都离不开专家知识,即人工选出某个领域的词作为种子词;然后再基于这些专家知识训练模型识别更多的领域词;该种方法具有很大的偏差和狭隘性。因此,需要提供一种能够高效准确生成领域词典的技术方案。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种领域词典生成方法及装置,具体地:一方面提供了一种领域词典生成方法,所述方法包括:获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。另一方方面提供了一种领域词典生成装置,所述装置包括:相关文本获取模 ...
【技术保护点】
1.一种领域词典生成方法,其特征在于,所述方法包括:获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。
【技术特征摘要】
1.一种领域词典生成方法,其特征在于,所述方法包括:获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。2.根据权利要求1所述的领域词典生成方法,其特征在于,所述获取每个字符单元的互相关度以得到所述目标领域的原始词典,包括:获取每个字符单元的互相关度;根据所述互相关度对所述字符单元集合中的字符单元进行排序,得到第一队列;从所述第一队列中截取第一预设数量的字符单元;其中,所述第一预设数量的字符单元的互相关度均大于所述第一队列中其余字符单元的互相关度;由所述第一预设数量的字符单元构成所述原始词典。3.根据权利要求1所述的领域词典生成方法,其特征在于,所述计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典,包括:计算所述原始词典中每个字符单元对所述目标领域的贡献度;根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列;从所述第二队列中截取第二预设数量的字符单元;其中,所述第二预设数量的字符单元的贡献度均大于所述第二队列中其余字符单元的贡献度;由所述第二预设数量的字符单元构成所述目标词典。4.根据权利要求1所述的领域词典生成方法,其特征在于,所述计算所述原始词典中每个字符单元对所述目标领域的贡献度,包括:将每个字符单元与所述相关文本进行匹配以得到第一逆文本词频,所述第一逆文本词频为所述字符单元在所述相关文本中的逆文本词频;获取所述目标领域的无关文本;将每个字符单元与所述无关文本进行匹配以得到第二逆文本词频,所述第二逆文本词频为所述字符单元在所述无关文本中的逆文本词频;依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度。5.根据权利要求4所述的领域词典生成方法,其特征在于,依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度,包括:由第一逆文本词频减去所述第二逆文本词频得到所述字符单元对所述目标领域的贡献度。6.根据权利要求1或2所述的领域词典生成方法,其特征在于,所述得到所述目标领域的原始词典,之后还包括:获取目标领域的历史词典;根据所述历史词典对所述原始词典进行更新;其中,所述根据所述历史词典对所述原始词典进行更新,包括:获取第一待删除字符单元集合;所述第一待删除字符单元集...
【专利技术属性】
技术研发人员:缪畅宇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。