文本分类(数据库)
时间:2022-11-29 16:30:01 | 来源:信息时代
时间:2022-11-29 16:30:01 来源:信息时代
文本分类 : 在给定的分类体系下对文本的内容的分类。文本分类的定义具有如下几层含义: ①分类体系是由人工预先设定的,而且类别可以有层次关系。②文本和类别是一对多的关系,亦即一篇文本可以被分类到数个类别。
1. 文本分类方法
各种文本分类方法,一般具有相似的分类过程。其分类过程大体如下: ①文本特征抽取; ②使用训练文本集训练分类器;③分类器对新文本进行分类。
2.文本特征抽取
文本特征抽取是指从无结构文本中,抽取一些代表有代表性的特征,从而可以用这些特性来表示文本,降低文本处理难度,训练文本分类器,进行文本分类。文本特征选取这一过程又可以细分为三个部分: 文本预处理、文本表示和降维。
(1)文本预处理:文本文件通常各种各样的不规则格式,既有有无结构的字符串形式文本,又有半结构化的HTML、XML格式,还有其他各种专有格式。文本预处理的目的提高文本质量,统一文本格式,减低文本处理难度。常用的文本预处理方法有:去除文本中的格式化信息,去除停用词,词根还原,数据清洗,多语言处理。
(2)文本表示:1969年,Gerard Sahon和McGill提出向量空间模型(vector space model),在这种模型中,文本集被表示为由特征项构成的向量空间。文本dj被表示为向量空间中的一个点,文本集可以表示成一个特征矩阵A。
AM×N=(aik) dj=(a1j,a2j,…,amj)。
其中,a
ij表示特征项i在文档d
j中的权重,N表示文档个数,M表示特征维数。每一维代表从文本中抽取得到的某个特征项。典型的特征项包括一个字,一个词,一个短语,一个n元组,甚至是一个概念。权重a
ij的选取非常关键,它能对分类结果产生很大的影响。人们通常通过如下两条经验规则来选取权重: ①特征项在文本中出现的概率越高,该特征项与文本的主题越相关。②特征项在文档集中出现的次数越多,它与文本的主题越不相关。
在此,引入两个定义f
ik和n
i,其中f
ik代表特征项i在文本k中出现频率,n
i代表特征项i在文本集中出现的频率。
基于TF-IDF的权重的基本思想是权重与特征项在文本中的出现频率成正比,与特征项在文本集中的出现频率成反比,
TFC权重是在TF-IDF的基础上,进一步进行了归一化处理:
LFC权重采用取对数的方法,降低f
ik的作用:
基于商的权重计算方法如下: 其中,
是特征项i的熵,如果特征项只在一个文档中出现,那么熵等于0; 如果特征项在所有文本上均匀分布,熵等于-1,
(3)降维:就是把文本从高维空间映射到低维空间,以减少处理复杂度,提高分类效率。降维方法大体可以分为两类: 特征选择和特征重构。
特征选择方法的基本思想是从文本中去除一些信息量比较少,对分类结果影响不大的特征项,从而减少特征项数目。常用的特征提取方法有词频阀值、信息增益、互信息量、χ
2统计、交叉熵、几率比等方法。
特征重构方法通过组合,转化原特征项,得到一组新的特征项,而不是简单的选择原特征项的一个子集。特征重构方法的代表方法是隐性语义索引方法。
3.文本分类算法
国内外已有很多的文本分类算法,如贝叶斯分类、K-近邻法、支持向量机、神经网络、投票分类、决策树、线性最小方差匹配、Rocchio算法,基于语义网络的概念推理网等。
(1)贝叶斯分类:是一种以贝叶斯假设为理论基础的概率模型算法。朴素贝叶斯算法首先计算特征项属于每个类别的先验概率。在分类新文本时,根据该先验概率计算该文本属于每个类别的后验概率,最后取后验概率最大的类别作为该文本所属的类别。
(2)K-近邻法: 是由Cover和Hart于1968年提出的,在文本分类方面得到了广泛的研究与应用。它通过计算文本间的相似度,找出训练集合中与测试文本最相近的k个文本。即新文本的k个近邻,然后根据这k个文本的类别判定新文本的类别。
(3)支持向量机方法: 是由V. Vapnik领导的AT&Be11实验室研究小组开发出来的一种很有潜力的分类技术,适合于大样本集的分类。SVM是结构风险最小化原理的近似实现,基本思想是使用简单的线性分类器划分样本空间。对于在当前特征空间中不可分的模式,则使用一个核函数把样本映射到一个高维空间中,使得样本能够线性可分。