词语识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38863456 阅读:26 留言:0更新日期:2023-09-17 10:04
本申请实施例属于人工智能领域与金融科技领域,涉及一种词语识别方法,包括:获取初始语料数据;对初始语料数据进行预处理得到语料数据;基于语言模型对语料数据进行切分处理得到多个文本片段;基于各个文本片段在语料数据中的频次信息,调用凝聚度计算公式计算各个文本片段的凝聚度;基于邻熵计算公式计算各个文本片段的左邻熵与右邻熵;基于凝聚度、左邻熵与右邻熵,计算各个文本片段的合理性分值;基于合理性分值从文本片段中确定出新词。本申请还提供一种词语识别装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,新词可存储于区块链中。本申请可应用于金融领域的新词发现场景,提高了对于语料数据中新词确定的效率与准确度。与准确度。与准确度。

【技术实现步骤摘要】
词语识别方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能开发
与金融科技领域,尤其涉及词语识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着信息和科技的快速发展,人们知识迭代异常迅速,网络新词或技术术语也是层出不尽。新词发现作为自然语言处理基础算法之一,主要用于冷启动构建领域词库、挖掘领域新词或更新领域词库等。目前,在金融科技领域中也会存在许多待发现的新词。新词发现是通过挖掘语料中的语言特征,判断语料中哪些字符片段可能成词的算法,其主要实现形式通常使用有监督方法,有监督新词发现算法主要是通过序列标注的方法对文本进行分词处理,但是这种处理方法的泛化性较差,存在成本高,效率低,且无法保证生成的新词的准确度的问题。

技术实现思路

[0003]本申请实施例的目的在于提出一种词语识别方法、装置、计算机设备及存储介质,以解决现有的有监督新词发现算法通过序列标注的方法对文本进行分词处理,存在成本高,效率低,且无法保证生成的新词的准确度的技术问题。
[0004]为了解决上述技术问题,本申请实施例提供本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种词语识别方法,其特征在于,包括下述步骤:获取输入的初始语料数据;对所述初始语料数据进行预处理,得到处理后的语料数据;基于预设的语言模型对所述语料数据进行切分处理,得到多个文本片段;统计各个文本片段在所述语料数据中的频次信息,并基于所述频次信息,调用预设的凝聚度计算公式计算各个所述文本片段的凝聚度;基于预设的左邻熵计算公式计算各个所述文本片段的左邻熵,以及基于预设的右邻熵计算公式计算各个所述文本片段的右邻熵;基于所述凝聚度、所述左邻熵与所述右邻熵,调用预设的合理性分值计算公式计算各个所述文本片段的合理性分值;基于所述合理性分值从所有所述文本片段中确定出新词。2.根据权利要求1所述的词语识别方法,其特征在于,所述对所述初始语料数据进行预处理,得到处理后的语料数据的步骤,具体包括:对所述初始语料数据进行清洗处理,得到第一初始语料数据;对所述第一初始语料数据进行分句处理,得到第二初始语料数据;将所述第二初始语料数据作为所述语料数据。3.根据权利要求1所述的词语识别方法,其特征在于,所述基于预设的语言模型对所述语料数据进行切分处理,得到多个文本片段的步骤,具体包括:获取输入的参数值;判断所述参数值是否处于预设的数值范围内;若是,通过所述语言模型将所述语料数据按照字节进行大小为所述参数值的滑动窗口操作,得到对应的字节片段序列;将所述字节片段序列作为所述文本片段。4.根据权利要求1所述的词语识别方法,其特征在于,所述统计各个文本片段在所述语料数据中的频次信息,并基于所述频次信息,调用预设的凝聚度计算公式计算各个所述文本片段的凝聚度的步骤,具体包括:获取各个所述文本片段在所述语料数据中出现的第一频次;获取各个所述文本片段中包含的各个字在所述语料数据中出现的第二频次;将所述第一频次与所述第二频次输入至所述凝聚度计算公式内,得到各个所述文本片段的凝聚度。5.根据权利要求1所述的词语识别方法,其特征在于,所述基于所述凝聚度、所述左邻熵与所述右邻熵,调用预设的合理性分值计算公式计算各个所述文本片段的合理性分值的步骤,具体包括:获取候选文本片段的指定凝聚度、指定左邻熵与指定右邻熵;其中,所述候选文本片段为所有所述文本片段中的...

【专利技术属性】
技术研发人员:曹贵邦何银雪
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1