一种领域词典生成方法及装置制造方法及图纸

技术编号:21184675 阅读:17 留言:0更新日期:2019-05-22 15:17
本发明专利技术公开了一种领域词典生成方法及装置,所述方法包括获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。本发明专利技术基于互相关度和贡献度的计算得到的目标词典与所述目标领域具有高度相关性。

A Method and Device for Generating Domain Dictionary

The invention discloses a method and device for generating a domain dictionary, which includes acquiring relevant texts in the target domain, obtaining a set of character units according to the relevant texts, including a plurality of character units, which are obtained by combining continuous characters in the relevant texts, and acquiring the cross-correlation degree of each character unit to obtain a set of character units. The original dictionary of the target domain; calculates the contribution of each character unit in the original dictionary to the target domain to obtain the target Dictionary of the target domain. The target dictionary obtained by calculating the degree of cross-correlation and contribution of the present invention is highly correlated with the target field.

【技术实现步骤摘要】
一种领域词典生成方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种领域词典生成方法及装置。
技术介绍
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等;这些互联网产业的兴起与繁荣离不开大量的数据信息分析;大数据分析中自然语言处理占据重要的地位;其中,在自然语言处理分析中基于词典的分析方法具有重要的应用;具体是以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法进行针对性的分析和挖掘;不同的领域所采取的词典也有很大的不同。其中,词典大致分成两大类:一是通用词典,二是领域词典;在具体任务上,领域词典的应用更广。现有的用于生成领域词典的方案多种多样,但都离不开专家知识,即人工选出某个领域的词作为种子词;然后再基于这些专家知识训练模型识别更多的领域词;该种方法具有很大的偏差和狭隘性。因此,需要提供一种能够高效准确生成领域词典的技术方案。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种领域词典生成方法及装置,具体地:一方面提供了一种领域词典生成方法,所述方法包括:获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。另一方方面提供了一种领域词典生成装置,所述装置包括:相关文本获取模块,用于获取目标领域的相关文本;字符单元得到模块,用于根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;原始词典得到模块,用于获取每个字符单元的互相关度以得到所述目标领域的原始词典;目标词典得到模块,用于计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。本专利技术提供的一种领域词典生成方法及装置,具有的有益效果为:本专利技术通过获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典;本专利技术具有广泛的适用性;得到的目标词典与所述目标领域具有高度相关性;能够为相关的文本分析提供更加准确的资源数据;方便了行业内信息的集成和共享。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本说明书实施例提供的一种领域词典生成方法流程图;图2是本说明书实施例提供的获取每个字符单元的互相关度以得到所述目标领域的原始词典的步骤流程图;图3是本说明书实施例提供的得到所述目标领域的目标词典的步骤流程图;图4是本说明书实施例提供的计算所述原始词典中每个字符单元对所述目标领域的贡献度的步骤流程图;图5是本说明书实施例提供的一种领域词典生成的步骤流程图;图6是本说明书实施例提供的根据所述历史词典对所述原始词典进行更新的步骤流程图;图7是本说明书实施例提供的根据所述历史词典对所述第二队列进行更新的步骤流程图;图8是本说明书实施例提供的一种领域词典生成的步骤流程图;图9(a)是本说明书实施例提供的从新闻领域中得到娱乐词典的结果展示示意图;图9(b)是本说明书实施例提供的从新闻领域中得到体育词典的结果展示示意图;图9(c)是本说明书实施例提供的从新闻领域中得到财经词典的结果展示示意图;图10是本说明书实施例提供的一种领域词典生成装置框图;图11是本说明书实施例提供的原始词典得到模块的组成框图;图12是本说明书实施例提供的目标词典得到模块的组成框图;图13是本说明书实施例提供的领域词典生成设备的结构示意图。具体实施方式下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。现有的生成领域词典的方案中,对于采用专家知识的方式需要耗费巨大人力;并且,不同专家对同一领域的词的理解可能存在偏差,导致人工结果不那么准确,从而训练出来的模型会有偏差;相比实际应用中遇到的海量文本,专家知识的覆盖率很小,训练出来的模型也会比较狭隘;中文文本的识别需要分词,而分词的准确性不能得到保证,因而影响领域词典的生成。因此,本说明书提出了一种自动地且具有较好容错性的生成领域词典的技术方案;其中本方案无需分词,直接通过字符组合的方式挖掘出词、短语等的组合;通过引入领域无关文本信息,得到不同字符组合对目标领域的贡献度,生成的词典与目标领域具有高度相关性。具体地:本说明书实施例提供了一种领域词典生成方法,如图1所示,所述方法包括:S202.获取目标领域的相关文本;具体地,可以通过搜集的方式得到所述目标领域的大规模的相关文本;比如以新闻领域为例,可以从网上采集带有『体育』、『娱乐』、『经济』等标签的新闻文本,得到领域相关的文本数据集。其中,获取相关文本的方式可以是通过爬虫的方式得到,或是基于有领域标签的文本训练分类模型,通过相关文本的领域标记的方式得到;或是综合运用上述方法得到。给与说明的是,得到领域相关文本并不限定于上述方式,还可以是能够实现相同功能的其他方式。并且,所述相关文本的数量可以根据需要进行灵活设定,并不限定于某一固定的数值。S204.根据所述相关文本得到字符单元集合;所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;其中,所述字符单元集合可以是多个相关文本构成的文本数据集;具体地,将每个相关文本中的连续字符进行字符组合以得到多个字符单元;这里的连续字符可以是以多种不同的数目进行组合,例如可以是两个连续字符的组合形式、三个连续字符的组合形式或四个连续字符的组合形式等等;比如在娱乐领域中,会挖掘出王者、荣耀、王者荣、王者荣耀等词组或短语构成的字符单元。需要给与说明的是,本实施例中的字符可以是中文或英文;对应地,在字符为中文汉字本文档来自技高网...

【技术保护点】
1.一种领域词典生成方法,其特征在于,所述方法包括:获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。

【技术特征摘要】
1.一种领域词典生成方法,其特征在于,所述方法包括:获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。2.根据权利要求1所述的领域词典生成方法,其特征在于,所述获取每个字符单元的互相关度以得到所述目标领域的原始词典,包括:获取每个字符单元的互相关度;根据所述互相关度对所述字符单元集合中的字符单元进行排序,得到第一队列;从所述第一队列中截取第一预设数量的字符单元;其中,所述第一预设数量的字符单元的互相关度均大于所述第一队列中其余字符单元的互相关度;由所述第一预设数量的字符单元构成所述原始词典。3.根据权利要求1所述的领域词典生成方法,其特征在于,所述计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典,包括:计算所述原始词典中每个字符单元对所述目标领域的贡献度;根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列;从所述第二队列中截取第二预设数量的字符单元;其中,所述第二预设数量的字符单元的贡献度均大于所述第二队列中其余字符单元的贡献度;由所述第二预设数量的字符单元构成所述目标词典。4.根据权利要求1所述的领域词典生成方法,其特征在于,所述计算所述原始词典中每个字符单元对所述目标领域的贡献度,包括:将每个字符单元与所述相关文本进行匹配以得到第一逆文本词频,所述第一逆文本词频为所述字符单元在所述相关文本中的逆文本词频;获取所述目标领域的无关文本;将每个字符单元与所述无关文本进行匹配以得到第二逆文本词频,所述第二逆文本词频为所述字符单元在所述无关文本中的逆文本词频;依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度。5.根据权利要求4所述的领域词典生成方法,其特征在于,依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度,包括:由第一逆文本词频减去所述第二逆文本词频得到所述字符单元对所述目标领域的贡献度。6.根据权利要求1或2所述的领域词典生成方法,其特征在于,所述得到所述目标领域的原始词典,之后还包括:获取目标领域的历史词典;根据所述历史词典对所述原始词典进行更新;其中,所述根据所述历史词典对所述原始词典进行更新,包括:获取第一待删除字符单元集合;所述第一待删除字符单元集...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1