一种中英文论文数据分类与查询方法技术

技术编号:28035568 阅读:40 留言:0更新日期:2021-04-09 23:17
本发明专利技术属数据分类技术领域,具体涉及一种中英文论文数据分类与查询方法。该方法通过提取中文论文的中英文关键词,对数据进行处理形成中英文对照库和中文词库,利用模型获取英文标签库,将英文标签库和中英文对照库进行融合形成中英文标签库;同时通过对中文和英文论文的原始数据进行分词处理得到中英文分词列表,通过计算相关度,对论文的领域进行划分,可以有效将中英文论文的研究领域标签进行统一,能够提高检索准确性,准确识别出同一类型的中英文论文,提高跨语言查询的准确性。

【技术实现步骤摘要】
一种中英文论文数据分类与查询方法
本专利技术属数据分类
,具体涉及一种中英文论文数据分类与查询方法。
技术介绍
知识库是存储、组织和处理知识以及提供知识服务的知识集合,借助知识库能够更好的了解与发现某领域的研究现状与发展趋势,同时,在各行各业中建立知识库也逐渐成为进行知识服务于管理的基础。由于英文作为一种国际通用语言,英文的优秀论文也是数不胜数,所以在构建知识库的时候,将中文与英文论文同时加入就势在必行。知识库的构建,有两个重要的步骤:一是将论文归类,即论文属于哪个领域,也可以说给论文打标签。另一个是论文的查询,中英文融合的知识库亦是如此。对论文打标签,即论文属于哪个领域,可以对当前某领域的研究趋势进行分析。在打标签过程中首先需要对论文中的文字进行分词处理,但在对论文进行分词时,传统分词器常常达不到想要的效果,如对“机器学习是一项热门技术”这段话进行分词,我们想要的是“机器学习”,但传统分词器会将“机器学习”分为“机器”与“学习”,这样的分词,并不是我们想要的结果,英文分词也是如此。另外在中英文融合的前提下如何准确的识别出本文档来自技高网...

【技术保护点】
1.一种中英文论文数据分类与查询方法,其特征在于:包括以下步骤:/n步骤一、根据中文论文发表时自带的中英文关键词,对中文论文的原始数据进行遍历,提取所有中文论文中的中英文关键词,对提取的数据进行清洗与过滤处理,排除异常数据后对中文翻译结果进行聚合,将大于阈值agg的翻译列表作为中文对应的中英文对照库,按照中英文对照库抽取中文关键词生成中文词库;/n步骤二、通过现有的模型或构建的LDA领域模型获取英文学术领域标签库,所述英文学术领域标签库为二层树形结构,包括大领域标签和小领域标签,所述小领域标签归属于大领域标签;/n步骤三、结合英文学术领域标签库和中英文对照库进行关联,若英文标签库中的标签在中英...

【技术特征摘要】
1.一种中英文论文数据分类与查询方法,其特征在于:包括以下步骤:
步骤一、根据中文论文发表时自带的中英文关键词,对中文论文的原始数据进行遍历,提取所有中文论文中的中英文关键词,对提取的数据进行清洗与过滤处理,排除异常数据后对中文翻译结果进行聚合,将大于阈值agg的翻译列表作为中文对应的中英文对照库,按照中英文对照库抽取中文关键词生成中文词库;
步骤二、通过现有的模型或构建的LDA领域模型获取英文学术领域标签库,所述英文学术领域标签库为二层树形结构,包括大领域标签和小领域标签,所述小领域标签归属于大领域标签;
步骤三、结合英文学术领域标签库和中英文对照库进行关联,若英文标签库中的标签在中英文对照库中可以找到,则将对应中文关联在英文标签库中的英文标签上;若英文标签库中的标签在中英文对照库中无法找到,则通过现有机器翻译进行转换,通过机器翻译模型,将tag_1进行机器翻译;最终将英文标签库生成中英领域标签库并将其与英文标签库对应;
步骤四、将步骤一生成的中文词库结合中文分词器生成带有自定义词库的分词器,分别对中文论文原始数据和英文论文原始数据的关键词、摘要和标题通过分词器进行分词,生成对应的中文分词列表和英文分词列表;
步骤五、使用KNN算法计算论文的领域;
步骤六、结合词库对信息进行查询。


2.根据权利要求1所述的中英文论文数...

【专利技术属性】
技术研发人员:康锐文冯凯王元卓
申请(专利权)人:中科院计算技术研究所大数据研究院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1