A method and device for automatic construction of key words, the method comprises the following steps: the first digital resources for segmentation, segmentation results obtained first; obtaining the first segmentation results in weight each word; acquiring at least one associated with the first digital resources of second digital resources; second digital resources for segmentation, segmentation second the results obtain segmentation results in weight; second each word; match each word segmentation results in each word with the first second segmentation results; according to the weight of words each weight of each word segmentation weight of each word matching results, the first segmentation results in value and the second segmentation results calculated first segmentation results according to the weight of words; word segmentation part selects the first segmentation results as the first digital resources subject. The invention not only has high efficiency, but also can be used to accurately express the theme idea of the first digital resource, and can meet the requirements of Indexing Documents and retrieving documents.
【技术实现步骤摘要】
本专利技术涉及数字资源处理领域,具体涉及一种自动构建主题词的方法及装置。
技术介绍
数字资源是文献信息的表现形式之一,是以数字形式发布、存取、利用的信息资源总和。主题词是指在标引和检索中用以表达文献主题的规范化的词或词组。因此,准确的主题词对文献的检索和标引等具有非常重要的作用,从而如何从数字资源中快速准确地提取主题词以对其进行有效的管理和利用是亟需解决的问题。对于数字资源的主题词构建,目前一般采用如下几种办法:1)人工设定主题词;2)普通的文档数据抽取方法。但是上述两种方法都存在不足,人工设定主题词的方法有效率低、成本高、易出错等缺点。普通的文档数据抽取方法,虽然其效率相比人工方式有一些提高,但存在构建效果不佳的问题,如,所选择的主题词实用性不强,不能满足标引文献和检索文献的要求,或者不能准确地表达文献的主题思想。
技术实现思路
因此,本专利技术要解决的技术问题在于现有的主题词抽取方法存在构建效果不佳的问题。为此,本专利技术实施例提供了如下技术方案:一种自动构建主题词的方法,包括如下步骤:将第一数字资源进行分词,获得第一分词结果;获取第一分词结果中各个分词的权重值;获取至少一篇与第一数字资源相关的第二数字资源;将第二数字资源进行分词,获得第二分词结果;获取第二分词结果中各个分词的权重值;将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;根据匹配结果、第一分词结 ...
【技术保护点】
一种自动构建主题词的方法,其特征在于,包括如下步骤:将第一数字资源进行分词,获得第一分词结果;获取所述第一分词结果中各个分词的权重值;获取至少一篇与所述第一数字资源相关的第二数字资源;将所述第二数字资源进行分词,获得第二分词结果;获取所述第二分词结果中各个分词的权重值;将所述第一分词结果中各个分词与所述第二分词结果中各个分词进行匹配;根据匹配结果、所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值计算所述第一分词结果中各个分词的主题词权重;根据所述主题词权重选取所述第一分词结果中的部分分词作为所述第一数字资源的主题词。
【技术特征摘要】
1.一种自动构建主题词的方法,其特征在于,包括如下步骤:
将第一数字资源进行分词,获得第一分词结果;
获取所述第一分词结果中各个分词的权重值;
获取至少一篇与所述第一数字资源相关的第二数字资源;
将所述第二数字资源进行分词,获得第二分词结果;
获取所述第二分词结果中各个分词的权重值;
将所述第一分词结果中各个分词与所述第二分词结果中各个分词进行匹配;
根据匹配结果、所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分
词的权重值计算所述第一分词结果中各个分词的主题词权重;
根据所述主题词权重选取所述第一分词结果中的部分分词作为所述第一数字资源的
主题词。
2.如权利要求1所述的方法,其特征在于,所述将第一数字资源进行分词获得第一分词
结果的步骤和所述将所述第二数字资源进行分词获得第二分词结果的步骤均包括:
按照筛选条件对分词进行筛选,所述筛选条件包括删除停用词。
3.如权利要求1或2所述的方法,其特征在于,所述至少一篇与所述第一数字资源相关
的第二数字资源是采用向量机进行识别、分类以及回归分析得到的。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述第一分词结果中各个分词的
权重值和所述第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词
频得到的。
5.如权利要求4所述的方法,其特征在于,所述第一分词结果中各个分词的权重值和所
述第二分词结果中各个分词的权重值是通过以下公式计算得到的:
Y=(X-MIN)/(MAX-MIN)
...
【专利技术属性】
技术研发人员:王兴华,李小磊,万巍,尤勇,
申请(专利权)人:北大方正集团有限公司,北京方正阿帕比技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。