种子关键字字典建立方法和装置及关键词提取方法和装置制造方法及图纸

技术编号:13183603 阅读:63 留言:0更新日期:2016-05-11 15:12
本发明专利技术实施例提供一种领域内的种子关键字字典的建立方法和装置及关键词的提取方法和装置。该建立方法包括:获取设定领域的实验文本集;统计实验文本集包含的汉字的出现频次;根据所述实验文本集包含的汉字的出现频次,以及预先配置的通用关键字字典中对应汉字的权重,确定所述实验文本集包含的汉字在该领域中的权重;按照所述实验文本集包含的汉字在该领域中的权重从高到低的顺序,选取排序优先的设定数量的汉字,作为该领域的种子关键字,并将对应的在该领域中的权重进行关联存储,形成该领域内的种子关键字字典。本方案得到的领域的种子关键字的准确率较高,使得基于此形成的该领域内的种子关键字字典的准确率较高。

【技术实现步骤摘要】

本专利技术实施例设及自然语言处理
,尤其设及一种领域内的种子关键字字 典的建立方法和装置及关键词的提取方法和装置。
技术介绍
目前新闻文本或论文一般都有作者自行确定的关键词。其他的各类文章还很少提 供关键词,通常需要在编辑整理时手工抽取。手工抽取关键词不仅费时费力,而且主观性 强,抽取不当往往会对下一步的应用造成消极影响,因此设定领域的文本的关键词的自动 提取技术应用而生。 国外对于关键词自动提取的研究较早,已经建立了一些实验系统。Turney设计的 Ge址X系统将遗传算法和C415决策树机器学习方法用于关键词的提取;Witten采用朴素贝 叶斯技术对短语离散的特征值进行训练,获取模型的权值,然后从文档中提取关键词。 中文文本没有显式的词边界使得关键词的自动提取增加了一定难度,主要有两种 技术实现设定领域的中文文本的关键词的提取。 -种是基于PAT树结构获取候选关键词,并采用互信息等统计方法进行关键词提 取,存在的缺陷在于:建立获取候选关键词的PAT树需要大量的存储空间,实现复杂。 另一种是利用最大赌模型进行关键词自动标引的方法,由于特征的选择W及估计 特征参数时不够准确,最大赌模型在关键词标引中的应用并不理想。
技术实现思路
本专利技术实施例提供一种领域内的种子关键字字典的建立方法和装置及关键词的 提取方法和装置,W降低在设定领域的中文文本中实现关键词的自动提取的难度,并达到 较高的提取准确率。[000引第一方面,本专利技术实施例提供了一种领域内的种子关键字字典的建立方法,包括: 获取设定领域的实验文本集; 统计所述实验文本集包含的汉字的出现频次N; 根据所述实验文本集包含的汉字的出现频次N,W及预先配置的通用关键字字典 中对应汉字的权重W,确定所述实验文本集包含的汉字在该领域中的权重W; 按照所述实验文本集包含的汉字在该领域中的权重W从高到低的顺序,选取排序 优先的设定数量的汉字,作为该领域的种子关键字,并将对应的在该领域中的权重W进行关 联存储,形成该领域内的种子关键字字典。 第二方面,本专利技术实施例提供了一种领域内的种子关键字字典的建立装置,包括: 实验文本集获取模块,用于获取设定领域的实验文本集; 统计模块,用于统计所述实验文本集包含的汉字的出现频次N; 权重确定模块,用于根据所述实验文本集包含的汉字的出现频次N,W及预先配置 的通用关键字字典中对应汉字的权重W,确定所述实验文本集包含的汉字在该领域中的权 重w; 字典建立模块,用于按照所述实验文本集包含的汉字在该领域中的权重W从高到 低的顺序,选取排序优先的设定数量的汉字,作为该领域的种子关键字,并将对应的在该领 域中的权重W进行关联存储,形成该领域内的种子关键字字典。 第=方面,本专利技术实施例提供了一种关键词的提取方法,基于本专利技术实施例提供 的领域内的种子关键字字典的建立方法所建立的领域内的种子关键字字典实现,包括: 获取设定领域的文本; 对所述文本进行分割,得到所述文本包含的单句; 利用预先建立的该领域内的种子关键字字典,定位各单句所出现的该领域的种子 关键字; 对于出现该领域的种子关键字的各单句,W所出现的该领域的种子关键字为中 屯、,基于预设的种子扩散策略,确定该单句中的候选关键词; 采用最长词汇匹配原则,对各单句中的候选关键词进行筛选,得到所获取的文本 的关键词。 第四方面,本专利技术实施例提供了一种关键词的提取装置,基于本专利技术实施例提供 的领域内的种子关键字字典的建立装置所建立的领域内的种子关键字字典实现,包括: 文本获取模块,用于获取设定领域的文本; 文本分割模块,用于对所述文本进行分割,得到所述文本包含的单句; 定位模块,用于利用预先建立的该领域内的种子关键字字典,定位各单句所出现 的该领域的种子关键字; 候选关键词确定模块,用于对于出现该领域的种子关键字的各单句,W所出现的 该领域的种子关键字为中屯、,基于预设的种子扩散策略,确定该单句中的候选关键词; 候选关键词筛选模块,用于采用最长词汇匹配原则,对各单句中的候选关键词进 行筛选,得到所获取的文本的关键词。 本专利技术实施例提供的领域内的种子关键字字典的建立方法和装置,一方面,舍弃 了仅存在于通用关键字字典而不出现在所获取的设定领域的实验文本集中的汉字,另一方 面,综合考虑了汉字在设定领域的实验文本集中的出现频次,结合了通用关键字字典中对 应汉字的权重,基于此,确定汉字在该领域中新的权重,并根据在实验文本集中出现的汉字 在该领域中的新权重从高到低选取排序优先的汉字,作为该领域的种子关键字,使得该领 域的种子关键字的准确率较高,从而使得基于此形成的该领域内的种子关键字字典的准确 率较高。 本专利技术实施例提供的关键词的提取方法和装置,提供了一种无监督的关键词提取 方案,仅依赖所获取的文本所属领域的种子关键字字典,根据种子扩散策略,在获取的文本 中自动提取关键词。本方案避免了传统关键词提取方法的复杂度高、W及特征提取困难的 缺点,同时,由于所获取的文本所属领域的种子关键字字典的准确率较高,因此,基于此,从 所获取到的文本中自动提取的关键词的准确率相应较高。【附图说明】 为了更清楚地说明本专利技术,下面将对本专利技术中所需要使用的附图做一简单地介 绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可W根据运些附图获得其他的附图。 图1为本专利技术实施例一提供的一种领域内的种子关键字字典的建立方法的流程 图; 图2为本专利技术实施例二提供的一种领域内的种子关键字字典的建立装置的结构示 意图; 图3a为本专利技术实施例=提供的一种关键词的提取方法的流程图; 图3b为本专利技术实施例=提供的关键词的提取方法中基于预设的种子扩散策略,确 定单句中的候选关键词的方法流程图; 图4为本专利技术实施例四提供的一种关键词的提取装置的结构示意图。【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施例 中的技术方案作进一步详细描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全 部的实施例。可W理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的 限定,基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例,都属于本专利技术保护的范围。另外还需要说明的是,为了便于描述,附图 中仅示出了与本专利技术相关的部分而非全部内容。 在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成 作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是 其中的许多操作可W被并行地、并发地或者同时实施。此外,各项操作的顺序可W被重新安 排。当其操作完成时所述处理可W被终止,但是还可W具有未包括在附图中的附加步骤。所 述处理可W对应于方法、函数、规程、子例程、子程序等等。 实施例一 请参阅图1,为本专利技术实施例一提供的一种领域内的种子关键字字典的建立方法 的流程图。本专利技术实施例的方法可W由配置W硬件和/或软件实现的领域内的种子关键字 字典的建立装置来执行,该实现装置典型的是配置于能够提供设定领域内的文本分析服务 的设备中。 该方法包括:步骤110~步骤140。 本文档来自技高网...

【技术保护点】
一种领域内的种子关键字字典的建立方法,其特征在于,包括:获取设定领域的实验文本集;统计所述实验文本集包含的汉字的出现频次N;根据所述实验文本集包含的汉字的出现频次N,以及预先配置的通用关键字字典中对应汉字的权重w,确定所述实验文本集包含的汉字在该领域中的权重W;按照所述实验文本集包含的汉字在该领域中的权重W从高到低的顺序,选取排序优先的设定数量的汉字,作为该领域的种子关键字,并将对应的在该领域中的权重W进行关联存储,形成该领域内的种子关键字字典。

【技术特征摘要】

【专利技术属性】
技术研发人员:李强刘鹏
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1