文本处理方法及装置制造方法及图纸

技术编号:33994444 阅读:26 留言:0更新日期:2022-07-02 10:31
本申请实施例提供了一种文本处理方法及装置,包括:获取至少一个领域类别的术语;获取术语的关联内容;根据术语的关联内容以及术语所属领域类别的识别数据集合,确定术语与术语所属领域类别之间的匹配度。本申请中,术语的关联内容可以极大的扩充该术语的维度,识别数据集合也可以极大的扩充对应领域类别的维度。在利用术语的关联内容以及术语所属领域类别的识别数据集合进行该匹配度确定的过程中,关联内容和识别数据集合可以提供更为丰富的语义信息,从而提升了对术语数据的质量管理的精准度。另外,整个质量管理策略可以自动化的信息挖掘、信息分析、信息比较来实现,从而极大的降低了人工参与度,提高了生成效率,降低了生产成本。产成本。产成本。

【技术实现步骤摘要】
文本处理方法及装置


[0001]本申请涉及计算机
,特别是涉及一种文本处理方法及装置。

技术介绍

[0002]领域类的术语数据具有广泛的应用前景,术语数据可以广泛应用于电商、社交、机器翻译等
,从而满足这些
对于文本数据的专业性和规范性的需求。
[0003]目前,可以采用人工或自动化的术语挖掘链路来挖掘各个领域类别的术语数据,随着术语数据所应用的
的不断发展,对术语数据的质量的要求也在不断提升,但是采用上述术语数据挖掘方式存在生成的术语数据质量参差不齐的问题,现有方案是采用人工拣选的方式,对挖掘到的术语数据进行质量分析和筛选,从而达到控制术语数据的质量的目的。
[0004]但是,目前的方案中,由人工进行术语数据的质量管理,产生的人工成本较高且效率低下,也会产生精准度较低的问题。

技术实现思路

[0005]本申请实施例提供了一种文本处理方法,以在自动化的术语数据的质量验证策略下,通过低成本的方式实现对术语数据的质量管理,提高管理效率和精准度。
[0006]相应的,本申请实施例还提供了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取至少一个领域类别的术语;获取所述术语的关联内容;根据所述术语的关联内容以及所述术语所属领域类别的识别数据集合,确定所述术语与所述术语所属领域类别之间的匹配度。2.根据权利要求1所述的方法,其特征在于,所述根据所述术语的关联内容以及所述术语所属领域类别的识别数据集合,确定所述术语与所述术语所属领域类别之间的匹配度,包括:对所述关联内容按预设结构化解析规则进行解析,获取所述关联内容中的待分析结构化术语和/或待分析文本段落;所述待分析结构化术语包括:在页面中以结构化形式展示的术语;根据所述待分析结构化术语和/或待分析文本段落,以及所述术语所属领域类别的识别数据集合,确定所述术语与所述术语所属领域类别之间的匹配度。3.根据权利要求2所述的方法,其特征在于,在所述关联内容为网页数据的情况下,所述对所述关联内容按预设结构化解析规则进行解析,获取所述关联内容中的待分析结构化术语和/或待分析文本段落,包括:根据所述网页数据对应的结构化解析模板,从所述网页数据中获取所述待分析结构化术语和/或待分析文本段落。4.根据权利要求2所述的方法,其特征在于,所述识别数据集合包括:预置的参考词间N元关系特征;所述根据所述待分析结构化术语和/或待分析文本段落,以及所述术语所属领域类别的识别数据集合,确定所述术语与所述术语所属领域类别之间的匹配度,包括:在所述关联内容包括至少一段待分析文本段落的情况下,根据所述待分析文本段落,获取待分析词间N元关系特征;将所述待分析词间N元关系特征与所述参考词间N元关系特征进行匹配,确定所述术语与所述术语所属领域类别之间的匹配度。5.根据权利要求2所述的方法,其特征在于,所述识别数据集合包括:机器学习模型;所述根据所述待分析结构化术语和/或待分析文本段落,以及所述术语所属领域类别的识别数据集合,确定所述术语与所述术语所属领域类别之间的匹配度,包括:在所述关联内容包括至少一段待分析文本段落的情况下,根据所述待分析文本段落,获取输入特征;将所述输入特征输入所述机器学习模型,确定所述术语与所述术语所属领域类别之间的匹配度。6.根据权利要求2所述的方法,其特征在于,所述识别数据集合包括:预置的参考结构化术语;所述根据所述待分析结构化术语和/或待分析文本段落,以及所述术语所属领域类别的识别数据集合,确定所述术语与所述术语所属领域类别之间的匹配度,包括:在所述关联内容包括至少一个待分析结构化术语的情况下,将所述待分析结构化术语与所述参考结构化术语进行匹配,确定确定所述术语与所述术语所属领域类别之间的匹配
度。7.根据权利要求1

6任一项所述的方法,其特征在于,还包括:获取属于所述领域类别的样本文本;根据所述样本文本,构建所述领域类别的识别数据集合。8.根据权利要1

6任一项所述的方法,其特征在于,所述获取所述术语的关联内容,包括:根据所述术语,获取关联的网页数据作为关联内容。9.根据权利要求8所述的方法,其特征在于,所述根据所述术语,获取关联的网页数据作为关联内容,包括:根据所述术语,从目标知识网站获取所述网页数据作为所述关联内容;和/或,根据所述术语,从目标搜索引擎获取所述网页数据作为所述关联内容。10.根据权利要求9所述的方法,其特征在于,根据所述术语,从目标知识网站获取所述网页数据作为所述关联内容,包括:在至少一个目标知识网站中,以所述术语为查询词条,获取所述术语对应的词条页面。11.根据权利要求9所述的方法,其特征在于,所述根据所述术语,从目标搜索引擎获取所述网页数据作为所述关联内容,包括:在至少一个目标搜索引擎中,以所述术语进行查询,获取包括多个网页数据的查询结果;从所述查询结果中选取至少一个目标网页数据作为所述关联内容...

【专利技术属性】
技术研发人员:葛鑫骆卫华赵宇施杨斌
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1