【技术实现步骤摘要】
文献搜索方法及设备、作者搜索方法及设备
本专利技术一般地涉及自然语言处理领域。具体而言,本专利技术涉及一种能够准确地获得搜索结果的文献搜索方法及设备、作者搜索方法及设备。
技术介绍
近年来,随着信息存储能力和网络搜索技术的快速提升,目前的学术文献的查找和相关学者的搜索大部分通过网络检索平台完成。网络检索平台多采用与通用搜索引擎类似的基于关键词匹配和文本相似度的检索方式,这样的检索方式虽然在通用搜索引擎中表现不错,但是针对学术文献/作者的搜索,则欠缺考虑学术领域的分类、领域层次结构等方面的信息,使得搜索返回的结果不够精准。举例来说,数据挖掘技术有一个具体的分支是情感分析。如果搜索情感分析方面的学术文献,不可避免地会返回一些甚至很多专注于数据挖掘这一高层次抽象研究的文献,可能仅仅因为在其中提及了情感分析,或者对情感分析进行简要介绍。但是,搜索者实际上并不关心抽象的数据挖掘,而是希望获得情感分析这一较低层次的具体研究成果。当搜索情感分析领域的作者时,返回结果中也会掺杂有专注于数据挖掘的抽象研究的作者。可见,现有技术的问题在于搜索结果不够精准,产生问题的根源在于没有充分利 ...
【技术保护点】
一种文献搜索方法,包括:接收关于要搜索的文献的查询文本;利用层次语义模型,确定与查询文本相关的层次语义主题;以及从与所确定的层次语义主题相关的文献中,选择文献,作为搜索结果。
【技术特征摘要】
1.一种文献搜索方法,包括:接收关于要搜索的文献的查询文本;利用层次语义模型,确定与查询文本相关的层次语义主题;以及从与所确定的层次语义主题相关的文献中,选择文献,作为搜索结果。2.如权利要求1所述的方法,还包括:将文献搜索范围内的所有文献转换为词向量;将所得到的词向量输入到层次语义模型以进行训练,训练得到的层次语义模型具有层次。3.如权利要求2所述的方法,其中,所述词向量的元素对应的词语的集合等于文献搜索范围内的所有文献中包括的词语的集合与领域词语列表的并集。4.如权利要求3所述的方法,还包括:收集文献搜索范围内的各个领域的已知领域术语;利用热词分析技术,从所述各个领域的文献中,提取各种类型的热词;将所收集的领域术语和所提取的热词组合成所述领域词语列表。5.如权利要求1所述的方法,其中,利用层次语义模型,确定与查询文本相关的层次语义主题包括:向层次语义模型输入所述查询文本,以得到多个候选主题及其与查询文本的语义相似度;从多个候选主题中确定与查询文本相关的层次语义主题。6.如权利要求5所述的方法,其中,从多个候选主题中确定与查询文本相关的层次语义主题包括:在仅有一个候选主题的语义相似度大于预定阈值的情况下,将该候选主题确定为与查询文本相关的层次语义...
【专利技术属性】
技术研发人员:宋双永,房璐,缪庆亮,孟遥,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。