【技术实现步骤摘要】
同义句库的生成方法及装置、电子设备和存储介质
[0001]本公开涉及计算机
,尤其涉及一种同义句库的生成方法及装置、电子设备和存储介质。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)领域是计算机科学、人工智能和信息工程的交叉领域,涉及统计学、语言学等的知识,其目标是让计算机“理解”自然语言,以执行文本检测、文本识别、文本分类、语言翻译和问题回答等任务。
[0003]同义句挖掘在自然语言处理领域中应用很广泛,比如在信息检索领域,实体信息识别领域,知识问答领域等。例如,在知识问答领域,计算机在接收到用户输入的问题之后,一般会先获取该问题的同义句,然后再根据该问题及其同义句,到数据库中搜索匹配的问题答案。
[0004]相关技术中,为了获取同义句库,同义句挖掘方法包括:开源数据(例如语义相似度比赛公开数据)法、通过人工撰写同义句(或者人工标记同义句)法、文本生成法、语法生成法、网络爬虫法等。然而,开源数据(例如语义相似度比赛公开数据)的数据量较少,不能满足 ...
【技术保护点】
【技术特征摘要】
1.一种同义句库的生成方法,其特征在于,包括:获取语料数据库,所述语料数据库包括:第一语料集、第二语料集、第三语料集,所述第一语料集、所述第二语料集、所述第三语料集是内容不同的语料集;根据所述第一语料集、所述第二语料集、所述第三语料集中的至少一种,生成同义句;根据所述同义句,生成同义句库。2.根据权利要求1所述的方法,其特征在于,所述第一语料集由同义词对组成,所述第二语料集由词典组成,所述第三语料集由翻译文档组成,根据所述第一语料集、所述第二语料集、所述第三语料集中的至少一种,生成同义句,其中,所述同义句包括以下至少其中之一:根据所述第一语料集中的至少一个同义词对在所述第二语料集中任一版本的词典中的释义生成的同义句;根据同一词语在所述第二语料集中不同版本的词典中的释义生成的同义句;根据同一段落在所述第三语料集中不同版本的翻译文本生成的同义句。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一语料集、所述第二语料集、所述第三语料集中的至少一种,生成同义句,包括:分别对所述第一语料集、所述第二语料集、所述第三语料集进行第一数据清洗,得到第一目标格式的所述第一语料集、第二目标格式的所述第二语料集、第三目标格式的所述第三语料集;根据第一目标格式的所述第一语料集、第二目标格式的所述第二语料集、第三目标格式的所述第三语料集中的至少一种,生成释义对和/或翻译句对;对所述释义对和/或所述翻译句对进行第二数据清洗,得到第二数据清洗后的同义句。4.根据权利要求3所述的方法,其特征在于,对所述第二语料集进行第一数据清洗,得到第二目标格式的第二语料集,包括:清除第二语料集中每个词典中每个词条中包含预设标识的词句;对清除了包含预设标识的词句的所述第二语料集进行格式设定,得到初始格式的第二语料集;根据预设的匹配模型,获取所述初始格式的第二语料集中词语与所述词语对应的释义中每个句子的匹配度;在所述词语对应的释义中清除匹配度最大的句子以外的其他句子,得到第二目标格式的第二语料集,所述第二目标格式为每个词语具有对应的释义。5.根据权利要求3所述的方法,其特征在于,对所述第一语料集进行第一数据清洗,得到第一目标格式的第一语料集,包括:清除第一语料集中包含预设标识的词句;对清除了包含预设标识的词句的所述第一语料集进行格式设定,得到第一目标格式的第二语料集,所述第一目标格式为每个词语对应一个词语。6.根据权利要求3所述的方法,其特征在于,对所述第三语料集进行第一数据清洗,得到第三目标格式的第三语料集,包括:清除第三语料集中包含预设标识的词句;对清除了包含预设标识的词句的所述第三语料集进行格式设定,得到第三目标格式的第三语料集,所述第三目标格式为每个段落对应一个段落。
7.根据权利要求3所述的方法,其特征在于,根据第一目标格式的所述第一语料集、第二目标格式的所述第二语料集、第三目标格式的所述第三语料集中的至少一种,生成释义对和/或翻译句对,所述释义对和/或所述翻译句对的生成方式包括以下至少其中之一:根据所述第二目标格式的第二语料集,确定所述第一目标格式的第一语料集中每个同义词对对应的释义对;根据所述第二目标格式的第二语料集中不同版本的词典中的释义,确定同一词语对应的不同版本的词典的不同释义构成的释义对;根据所述第三目标格式的第三语料集中不同版本的翻译文本,确定同一句子对应的不同版本的翻译构成的翻译句对。8.根据权利要求7所述的方法,其特征在于,根据所述第三目标格式的第三语料集中不同版本的翻译文本,确定同一句子对应的不同版本的翻译构...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:摩尔线程智能科技北京有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。