一种自动构建主题词的方法及装置制造方法及图纸

技术编号:14555054 阅读:52 留言:0更新日期:2017-02-05 04:17
一种自动构建主题词方法及装置,该方法包括如下步骤:将第一数字资源进行分词,获得第一分词结果;获取第一分词结果中各个分词的权重值;获取至少一篇与第一数字资源相关的第二数字资源;将第二数字资源进行分词,获得第二分词结果;获取第二分词结果中各个分词的权重值;将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;根据主题词权重选取第一分词结果中的部分分词作为第一数字资源主题词。本发明专利技术不仅效率高,而且构建的主题词可以准确地表达第一数字资源的主题思想,能满足标引文献和检索文献的要求。

Method and device for automatically constructing subject words

A method and device for automatic construction of key words, the method comprises the following steps: the first digital resources for segmentation, segmentation results obtained first; obtaining the first segmentation results in weight each word; acquiring at least one associated with the first digital resources of second digital resources; second digital resources for segmentation, segmentation second the results obtain segmentation results in weight; second each word; match each word segmentation results in each word with the first second segmentation results; according to the weight of words each weight of each word segmentation weight of each word matching results, the first segmentation results in value and the second segmentation results calculated first segmentation results according to the weight of words; word segmentation part selects the first segmentation results as the first digital resources subject. The invention not only has high efficiency, but also can be used to accurately express the theme idea of the first digital resource, and can meet the requirements of Indexing Documents and retrieving documents.

【技术实现步骤摘要】

本专利技术涉及数字资源处理领域,具体涉及一种自动构建主题词的方法及装置
技术介绍
数字资源是文献信息的表现形式之一,是以数字形式发布、存取、利用的信息资源总和。主题词是指在标引和检索中用以表达文献主题的规范化的词或词组。因此,准确的主题词对文献的检索和标引等具有非常重要的作用,从而如何从数字资源中快速准确地提取主题词以对其进行有效的管理和利用是亟需解决的问题。对于数字资源的主题词构建,目前一般采用如下几种办法:1)人工设定主题词;2)普通的文档数据抽取方法。但是上述两种方法都存在不足,人工设定主题词的方法有效率低、成本高、易出错等缺点。普通的文档数据抽取方法,虽然其效率相比人工方式有一些提高,但存在构建效果不佳的问题,如,所选择的主题词实用性不强,不能满足标引文献和检索文献的要求,或者不能准确地表达文献的主题思想。
技术实现思路
因此,本专利技术要解决的技术问题在于现有的主题词抽取方法存在构建效果不佳的问题。为此,本专利技术实施例提供了如下技术方案:一种自动构建主题词的方法,包括如下步骤:将第一数字资源进行分词,获得第一分词结果;获取第一分词结果中各个分词的权重值;获取至少一篇与第一数字资源相关的第二数字资源;将第二数字资源进行分词,获得第二分词结果;获取第二分词结果中各个分词的权重值;将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;根据主题词权重选取第一分词结果中的部分分词作为第一数字资源的主题词。优选地,将第一数字资源进行分词获得第一分词结果的步骤和将第二数字资源进行分词获得第二分词结果的步骤均包括:按照筛选条件对分词进行筛选,筛选条件包括删除停用词。优选地,至少一篇与第一数字资源相关的第二数字资源是采用向量机进行识别、分类以及回归分析得到的。优选地,第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。优选地,第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值是通过以下公式计算得到的:Y=(X-MIN)/(MAX-MIN)其中,X是该分词的词频,MIN是该分词所在分词结果中最小的分词词频,MAX是该分词所在分词结果中最大的分词词频。优选地,第一分词结果中各个分词的主题词权重是通过以下公式计算得到的:S_CPPJ=nv+w*Σi=1mC_CPi*PPiΣi=1mC_CPi]]>其中,n为第一分词结果中该分词的权重值,v、w为权值,C_CPi为第二分词结果中第i个分词的权重值,PPi为第一分词结果中该分词与第二分词结果中第i个分词的匹配值,m为第二分词结果中不同分词的个数。一种自动构建主题词的装置,包括:第一分词单元,用于将第一数字资源进行分词,获得第一分词结果;第一权重值计算单元,用于获取第一分词结果中各个分词的权重值;第二数字资源获取单元,用于获取至少一篇与第一数字资源相关的第二数字资源;第二分词单元,用于将第二数字资源进行分词,获得第二分词结果;第二权重值计算单元,用于获取第二分词结果中各个分词的权重值;匹配单元,用于将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;主题词权重计算单元,用于根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;主题词确定单元,用于根据主题词权重选取第一分词结果中的部分分词作为第一数字资源的主题词。本专利技术实施例技术方案,具有如下优点:本专利技术实施例提供的自动构建主题词的方法及装置,其首先利用分词器将第一数字资源进行分词并获取第一分词结果中各个分词的权重值;然后检索出至少一篇与该第一数字资源相似的第二数字资源,并根据该第二数字资源获取其第二分词结果中各个分词的权重值;最后,根据第一分词结果中各个分词与第二分词结果中各个分词的匹配程度和第二分词结果中各个分词的权重值调整第一分词结果中各个分词的权重值作为主题词权重值。最终根据第一分词结果中各个分词的主题词权重值确定出合适的主题词。通过该方法构建的主题词可以准确地表达第一数字资源的主题思想,能满足标引文献和检索文献的要求,且效率高、成本低、效果好。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例1中一种自动构建主题词的方法流程图;图2为本专利技术实施例2中一种自动构建主题词的装置的原理框图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。实施例1如图1所示,本实施例提供了一种自动构建主题词方法,包括如下步骤:S1:将第一数字资源进行分词,获得第一分词结果;S2:获取第一分词结果中各个分词的权重值;S3:获取至少一篇与第一数字资源相关的第二数字资源;S4:将第二数字资源进行分词,获得第二分词结果;S5:获取第二分词结果中各个分词的权重值;S6:将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;S7:根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;S8:根据主题词权重选取第一分词结果中的部分分词作为第一数字资源主题词。本实施例提供的自动构建主题词的方法,不仅效率高,而且通过该方法构建的主题词可以准确地表达第一数字资源的主题思想,能满足标引文献和检索文献的要求。具体地,上述步骤S1中,是利用分词器对第一数字资源进行分词,然后删除停用词后进行词频统计。该停用词包括“了”、“什么”和“的”等,由于停用词大多没有实际的意义,不管其词频的高低如何,都不能作为主题词,因此为了降低后续的计算量且更加准确地构建主题词,此处需要将其本文档来自技高网...
一种自动构建主题词的方法及装置

【技术保护点】
一种自动构建主题词的方法,其特征在于,包括如下步骤:将第一数字资源进行分词,获得第一分词结果;获取所述第一分词结果中各个分词的权重值;获取至少一篇与所述第一数字资源相关的第二数字资源;将所述第二数字资源进行分词,获得第二分词结果;获取所述第二分词结果中各个分词的权重值;将所述第一分词结果中各个分词与所述第二分词结果中各个分词进行匹配;根据匹配结果、所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值计算所述第一分词结果中各个分词的主题词权重;根据所述主题词权重选取所述第一分词结果中的部分分词作为所述第一数字资源的主题词。

【技术特征摘要】
1.一种自动构建主题词的方法,其特征在于,包括如下步骤:
将第一数字资源进行分词,获得第一分词结果;
获取所述第一分词结果中各个分词的权重值;
获取至少一篇与所述第一数字资源相关的第二数字资源;
将所述第二数字资源进行分词,获得第二分词结果;
获取所述第二分词结果中各个分词的权重值;
将所述第一分词结果中各个分词与所述第二分词结果中各个分词进行匹配;
根据匹配结果、所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分
词的权重值计算所述第一分词结果中各个分词的主题词权重;
根据所述主题词权重选取所述第一分词结果中的部分分词作为所述第一数字资源的
主题词。
2.如权利要求1所述的方法,其特征在于,所述将第一数字资源进行分词获得第一分词
结果的步骤和所述将所述第二数字资源进行分词获得第二分词结果的步骤均包括:
按照筛选条件对分词进行筛选,所述筛选条件包括删除停用词。
3.如权利要求1或2所述的方法,其特征在于,所述至少一篇与所述第一数字资源相关
的第二数字资源是采用向量机进行识别、分类以及回归分析得到的。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述第一分词结果中各个分词的
权重值和所述第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词
频得到的。
5.如权利要求4所述的方法,其特征在于,所述第一分词结果中各个分词的权重值和所
述第二分词结果中各个分词的权重值是通过以下公式计算得到的:
Y=(X-MIN)/(MAX-MIN)
...

【专利技术属性】
技术研发人员:王兴华李小磊万巍尤勇
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1