【技术实现步骤摘要】
一种基于人工智能的专有名词校对方法
[0001]本专利技术涉及人工智能领域,具体涉及一种基于人工智能的专有名词校对方法。
技术介绍
[0002]专有名词是指文本中出现的人名、地名、组织机构名。专有名词校对需要按照权威部门认定的或长期以来通用的名称使用,不能自作主张随意修改缩略。传统的专名校对方法需要人工一个字一个字地审核,效率低下。
[0003]因此,有必要提供一种新的技术方案。
技术实现思路
[0004]为解决现有技术中存在的技术问题,本专利技术公开了一种基于人工智能的专有名词校对方法,具体技术方案如下所述:
[0005]本专利技术提供一种基于人工智能的专有名词校对方法,包括如下步骤:
[0006]S1,提供输入文本;
[0007]S2,专有名词抽取模块利用基于序列标注的信息抽取模型抽取输入文本句子中可能的专有名词,并将之编码为语义向量;
[0008]S3,语义相似度检索模块用语义相似度计算模型计算所述语义向量和Milvus中的专有名词向量的相似度,检索得到Milvu ...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的专有名词校对方法,其特征在于,包括如下步骤:S1,提供输入文本;S2,专有名词抽取模块利用基于序列标注的信息抽取模型抽取输入文本句子中可能的专有名词,并将之编码为语义向量;S3,语义相似度检索模块用语义相似度计算模型计算所述语义向量和Milvus中的专有名词向量的相似度,检索得到Milvus中和所述语义向量相似度最大的那个专有名词向量;S4,审核模块通过规则引擎判断抽取得到的专有名词是否有误,若检测到专有名词有误则审核模块会根据正确的专有名词表述进行纠正。2.根据权利要求1所述的基于人工智能的专有名词校对方法,其特征在于,所述信息抽取模型利用基于Transformer架构的特征编码器获取句子中每个字符的语义向量表示,将其传入一个条件随机场(CRF)网络预测序列标签,使用标准的BIO(begin,inside,outside)标记法对句子中的每个字标注命名实体标签,标签B代表实体中开始字的位置,标签I代表实体中非首字的位置,标签O代表句子中不是实体字的位置。3.根据权利要求1所述的基于人工智能的专有名词校对方法,其特征在于,所述语义相似度检索模块利用SentenceTransformer网络结构来做语义相似度模型,其包括训练阶段和推理阶段,在训练阶段:A和B两个sentence分别进入同一个BERT模型得到...
【专利技术属性】
技术研发人员:夏振涛,李艳,朱立烨,
申请(专利权)人:永中软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。