综合三大模型,多维度提升识别准确率
时间:2022-03-16 20:42:01 | 来源:行业动态
时间:2022-03-16 20:42:01 来源:行业动态
基于此,知乎团队从情感倾向性、亲密关系、文本特征三方面入手,构建了情感模型、用户亲密度模型和文本识别模型三大模型,通过多维度交叉分析的方式对算法进行训练,大大提升了瓦力的阴阳怪气识别准确率。
具体是怎么回事?据知乎内容质量管理团队技术负责人刘兆来介绍,首先是通过知乎社区里的举报、反踩等负向用户行为进行收集和标注,为机器提供训练数据;随后在训练中把文本特征、数值特征、反讽词表,以及一些表现符特征等融入到模型中,并通过各种同义替换、规则模版方式对训练数据进行扩展和增强,以缓解训练数据不足的问题。
知乎内容质量管理团队技术负责人刘兆来
与此同时,瓦力还会提取文本、句法、表情符等特征,并利用一个带attention的CNN和LSTM融合模型进行分类,最终判断出内容是否为阴阳怪气语料。
知乎运营总监孙达云表示,目前瓦力对阴阳怪气评论文本的识别准确率已非常接近社区最大公约数,能够实现对95%以上违法违规、垃圾广告信息和不友善内容的主动打击、覆盖和筛选,每日可处理内容近万条。