常见的网站分类方法有哪些?
时间:2023-04-01 17:12:01 | 来源:电子商务
时间:2023-04-01 17:12:01 来源:电子商务
个人对资讯分类方法的经验:
整体思路上是拿高置信度的规则(PM侧输出)和算法结合使用。
高置信度规则主要是一些词表和加权(基于内容来源等的源绑定,类别强加权等)
算法方法主要用
1)TF*IDF(词频*逆文档频率)分词
2)LR模型/maxent+W2V+SVM训练
开发到一定程度,业务方会出现更多更细更高的要求,比如消除歧义,寻找核心关键词等
这块主要用知识图谱+doc2v