增加数据会使svm算法实现分类效果更好吗

关于什么是大规模机器学习可鉯参考[1, 2, 3]的讨论。显然大小是个相对的概念,在机器学习的语境下也不例外什么是大规模,这很大程度上取决于你所面对的应用以及可鼡的计算资源在互联网应用成为机器学习主要应用领域之一的今天,能不能处理Google或者淘宝这样重量级的网站所生成的数据成为互联网從业人员心目中大规模的标尺。

从技术角度看统计学习算法所能处理的数据规模有几个分水岭:

1)算法是否依赖于对训练集的随机访问。依赖于训练集随机访问的算法需要将训练集全部加载进内存所能处理的数据量受内存大小的限制。

2)算法是否能有效地利用分布式(戓并行的)计算资源单台计算机(或单处理器)的处理能力毕竟是有限的。如果可用的计算资源增长100倍算法能处理的数据量的增长远尛于100倍,则算法的适用范围也会有很大的限制

以上主要是围绕训练集的规模在讨论,实际上还会有更多需要考虑的问题比如数据的维數、分类类别的数目、检测时的效率等等问题,可以参考[2]及其中提到的相关文献如[3]中所说,(传统的)统计学习的核心问题是样本不足时如何得到泛化能力很强的模型,但对于大规模学习来说障碍往往在于算法的计算能力不足,不是数据不够所以也可以说传统的统計学习方法都不适合大规模数据处理(不只是SVM)。

因为互联网应用的推动最近几年这个领域新结果非常多。总体来说对于基于支持向量机嘚大规模线性分类问题,目前已经能比较好地解决[4]对现有结果做了比较好的总结,[2]则对需要进一步解决的问题有很好的概述

对于非线性分类问题,基于Dual Decomposition(或者SMO)方法的SVM-Light和LibSVM目前仍被广泛使用他们最坏情况下复杂度是O(训练样本数的平方),并不适合在大规模数据集上做训练Pegasos[5]的复杂度同训练样本数呈线性关系,但实验中效率并不高于SMO方法盛佳提到的PSVM[6]利用分布式计算资源降低训练耗时。不过在我接触过的应鼡场景里(比如对象检测)非线性SVM的最大问题不是训练时代价问题,而是检测时代价太高在实际应用中基本上已经退出竞争。当然楿关的研究并没有终止——毕竟不同的应用场景会有不同的需求。

对于未来的发展还是多看看[2]吧。

本发明属于数据分类技术领域具体涉及一种不平衡样本分类方法。

在数据挖掘的分类任务中目前针对高维不平衡数据的分类方法都是先解决高维问题或者不平衡问题,再解决另外一个问题并没有考虑高维特性对不平衡数据分类带来的新问题和不平衡特性对高维数据分类造成的影响。不平衡数据的分類任务主要从两个层面进行:数据层面的采样和算法层面的分类

数据层面的采样方法是从样本空间中解决数据分布不平衡的重要手段之┅,通过欠采样、重采样和混合采样等方法对类别数目分布不平衡的样本空间进行重构,使原本分布不平衡的数据在数量上趋于平衡減少数据不平衡对后期数据分类带来影响,防止分类器过多的关注多数类的分类准确率以追求全局准确率而忽略了人们更加关注的少数类嘚分类准确率[23]大量实验研究表明,通过采样的方法能显著提高不平衡数据的分类效果。采样方法发展至今已经在不平衡样本分类领域中被广泛运用。

欠采样方法是指按照一定的规律删除某些样本以使分类效果有所提升。1997年Kubat等人提出了一种基于样本点之间的欧氏距离將样本点划分为不同的类型从而进行采样的方法:单边选择算法(one-side selection)其主要思想是观察与某样本点最近的K个样本点的类别,根据这K个样本的類别与该样本的类别的差异性将该样本划分为安全样本、冗余样本、边界样本和噪声样本四种类型。其中安全样本和冗余样本在空间分咘上是在它所在的簇较靠内的样本即使它们是少数类样本,传统分类器对它们的识别程度也能达到较高水平;而边界样本和噪声样本由於其所处位置在空间上多种类别混杂被称为“不安全样本”,它们往往需要分类器投入更多的关注单边选择算法根据样本的空间分布特点,将多数类中的“不安全样本”剔除保留少数类的边界样本、冗余样本、安全样本,尽量使样本空间获得较好的可分性

Chawla等人提出嘚SMOTE(synthetic minority over-sampling technique)算法作为一种经典的过采样方法,已经被广泛的运用在不平衡数据的处理中并且衍生出了不少基于SMOTE方法改进的过采样方法。SMOTE算法的主偠思想是在与某个少数类最邻近的k个少数类中随机选择一个然后在这两个少数类的连线之间插值,生成一个仿造的少数类其公式如下:

SMOTE算法虽然改变了多数类与少数类之间的不平衡比例,但由于其在两个真实少数类之间生成仿造的少数类所以会改变原始样本空间的方差、协方差、类别密度等信息,对一些追求保留样本空间方差信息的降维方法有所限制同时也会让KNN等基于原始样本空间数据分布特点来進行分类的方法效果大打折扣。但由于SMOTE生成的样本具有随机性使得它能够避免对训练数据过拟合的问题,同时也更好地扩展了少数类的決策空间不少过采样方法都基于SMOTE进行改进,比如Han等人提出的针对边界样本进行插值的Borderline-SMOTE方法

还有一类采样方法关注采样倍率的设置,SBC是其中的典型算法该算法认为样本空间的不同类簇,由于其空间分布不同重要程度也有所差别,因此不能对同一类样本都设置相同的采樣率应该考虑他们所处的类簇在样本空间中的分布。基于该思想SBC算法将不平衡数据中的多数类聚成多个簇,然后按一定的规则设置每個多数类簇的欠采样比例不同程度的减少每个多数类簇中的样本数目。

高维数据的处理主要有降维和和特征选择线性判别分析(Linear Discriminant Analysis)作为一種经典的有监督降维分类方法,早已在高维数据的处理中被广泛运用LDA追求降维之后不同类别之间的样本间隔尽量远、同一类别样本间隔盡量近,按照不同类别间的距离与相同类别间的距离之比最大的方向将原始样本空间进行投影映射LDA方法在模式识别、图像处理中是一种被运用的较多的方法,当不同类别的数据之间可区分度较高、数据碎片、边界模糊的问题较少时该方法能取得十分好的分类效果。但在類别总数是C种的情况下由于其降维后的样本空间最多是C-1维,所以当高维数据中存在不平衡特性时由于数据的特征空间被极度压缩,所鉯会出现少数类被多数类覆盖、不同类别的样本在降维之后有相同属性的问题无监督的降维方法不考虑类别信息,它追求在降维过程中尽量还原原始样本空间中的某些特性。比如经典的PCA(Principal Analysis)降维就是一种按照原始特征空间中不同方向的方差分布大小来考虑投影方向的方法,使得降维后能尽量保留方差的分布不少数据实验表明,即便样本空间中有成千上万的特征数但是真正的方差能量,只用相对于原始特征数不到百分之十的投影方向就能保留大部分的方差能量PCA在处理类别信息基本遵循方差分布的数据时能有十分好的效果,比如图像分類等领域但由于不考虑类别标签,在处理一些方差信息不能反映类别分布情况的数据时往往会取得极坏的效果。流形学习方法(Manifold Learning)自2000年被艏次提出以来已成为信息科学领域的研究重点。其主要思想是:假设高维空间中的数据具有某种特殊的结构在将高维数据映射到低维後,低维空间中的数据仍能尽量还原原始数据在高维空间中的本质结构特征

目前的特征选择方法按照特征选择过程与分类器训练过程的關系可以分为过滤式特征选择、包裹式特征选择和嵌入式特征选择方法三大类。支持向量机迭代特征消除法SVM-RFE通过每一轮迭代寻找每种属性嘚权值权值的大小代表着SVM对该特征的关注程度,通过不断消除特征权重相对较低的特征来达到选取最优特征组合的目的支持向量机反姠特征消除法SVM-BFE每次训练消除一个特征,保存将消除某个特征后效果最好的特征组合继续代入下一轮训练。基于SVM的特征选择方法由于它鉯分类为目的,消除一些对分类效果有负面影响的特征组合和一些冗余度、相关度较高的特征从而寻找使分类效果最好的特征组合,在處理高维数据中取得了一系列不错的效果

由于没有考虑不平衡问题给特征选择带来的影响,在特征选择的过程中极容易使得特征选择朝着不利于少数类识别的方向进行:一次性完成特征选择的算法(如LASSO算法等)则可能直接剔除掉一些对少数类的识别有重要效果的特征组合;迭代消除特征的做法是反向特征消除法的改进,它通过考虑分类器自身的“感受”来进行特征选择每一轮选择一个分类器判定为对最终結果贡献较低且能使最终结果提升最大的特征进行消除,但同样无法阻止特征选择过程朝着增加多数类识别率的方向进行

此外,SMOTE过采样算法是用于处理不平衡问题的主流方法已被广泛运用在不平衡数据的处理中,并取得了良好的效果但是在高维不平衡数据中,由于高維问题的存在使得传统采样方法无法改变分类器对多数类的倾重,从而使传统采样方法失去意义文献[21]中的实验研究表明,SMOTE方法虽然能茬低维数据中让分类器增加对少数类的关注程度但在高维数据中,效果却不明显其原因主要是SMOTE方法生成的少数类,会使新样本空间中引入样本之间的相关性而不是特征之间的相关性,因此生成的少数类不能很好的还原原本样本空间中的少数类的分布

为解决现有技术Φ存在的问题,本发明设计了一种基于SVM的高维不平衡数据分类方法来解决高维不平衡数据集分类问题并取得了不错的效果。

本发明具体通过如下技术方案实现:

一种基于SVM的高维不平衡数据分类方法包括两部分第一部分是特征选择部分,第二部分是数据采样部分;所述特征选择部分采用SVM-BRFE算法所述SVM-BRFE算法包括以下步骤:

首先,训练SVM得到最初的特征权重向量w、拉格朗日参数ɑ和F1值;

然后,对ɑ=C的少数类进荇单倍率重采样并用重采样后的数据训练SVM,使SVM的分离超平面朝着F1值增大的方向移动;由于分离超平面的每一次变化都会伴随着分隔超平媔的同时变化边界样本也会有所改变,因此需要不断重复该过程每一次都对新的少数类样本边界进行单倍率的重采样,直到找到使F1值朂大的分离超平面为止用这个w值作为一轮特征选择的特征评分;

最后,按照特征的重要程度从小到大排列进行迭代特征消除每轮消除┅个特征使得F1值提高最多;由于每一轮消除了一个特征之后SVM的分离超平面同样也会改变,边界样本也随之发生改变因此也同样需要对剩丅的特征重新评分以产生新的特征权重w来评价每一个特征在新的特征空间下的重要程度。

所述数据采样部分采用改进的SMOTE算法即PBKS算法,所述PBKS算法用于解决利用SVM处理不平衡数据分类时由于输入空间与训练空间不同而产生的空间转化的问题,它利用SVM自动划分样本边界和在SVM中不岼衡问题主要集中体现为边界样本不平衡问题的特点PBKS算法在希尔伯特空间下利用不同的两个少数类合成新的少数类,并寻找过采样产生嘚样本点在欧几里得空间中的近似原像同时利用PSO算法自适应的对少数类边界样本点以及新产生的样本点的采样倍率进行优化,提升SVM的分類效果

本发明通过将两部分结合,形成了一种专门针对解决高维不平衡数据分类问题的算法在该算法中,后半部分所需要解决的是運用基于SVM来解决高维不平衡数据分类任务中的不平衡问题之后,所产生的新问题

图1是不平衡问题的解决流程图;各算法AUC值的直方图;

图2昰在各算法AUC值的直方图;

图3是在数据集1上各算法得到的ROC曲线图;

图4是在数据集2上各算法得到的ROC曲线图;

图5是在数据集3上各算法得到的ROC曲线圖;

图6是在数据集4上各算法得到的ROC曲线图;

图7是在数据集5上各算法得到的ROC曲线图;

图8是在数据集6上各算法得到的ROC曲线图。

下面结合附图说奣及具体实施方式对本发明进一步说明

本发明通过分析SVM-RFE特征选择过程,发现可以在特征迭代选择的过程中通过改进包裹式特征选择过程的特征评价体系来兼顾不平衡问题,于是利用SVM自动划分边界的特点来对希尔伯特空间下的样本点进行重采样来使支持向量机模型的F1值有所提高并用此时SVM的特征权向量w作为特征的评价标准。下面便是将这两者结合起来在考虑不平衡问题的情况下对高维不平衡数据进行特征选择,解决高维问题该算法的时间复杂度为O(d2),d为特征的总数主要过程如下所示。

首先训练SVM,得到最初的特征权重向量w、拉格朗日參数ɑ和F1值记录下这3个值以便后续对比使用。

然后对ɑ=C的少数类进行单倍率重采样,并用重采样后的数据训练SVM使SVM的分离超平面朝著F1值增大的方向移动;由于分离超平面的每一次变化都会伴随着分隔超平面的同时变化,边界样本也会有所改变因此需要不断重复该过程,每一次都对新的少数类样本边界进行单倍率的重采样直到找到使F1值最大的分离超平面为止,用这个w值作为一轮特征选择的特征评分

最后,按照特征的重要程度从小到大排列进行迭代特征消除每轮消除一个特征使得F1值提高最多;由于每一轮消除了一个特征之后SVM的分離超平面同样也会改变,边界样本也随之发生改变因此也同样需要对剩下的特征重新评分以产生新的特征权重w来评价每一个特征在新的特征空间下的重要程度。

在此值得注意的是,特征选择部分的重采样过程并不参与训练集的更新:对少数类边界样本进行重采样只是为叻得到一个相对于多数类和少数类比较公平的特征权重w以更好的衡量在高维不平衡数据中,每一个特征的重要程度而不是为了直接改變SVM对少数类的关注程度以提高直接分类效果和F1值,也就是说每一轮特征选择前的重采样过程只是为了解决收到不平衡问题影响的高维问题而不是为了解决不平衡问题。因此当得到最大的F1值时,当前一轮的重采样过程结束保存SVM在取得最大F1值时的权重向量w,用它来衡量特征的重要程度并对特征排序接着去除掉重采样复制的少数类样本点,只保留原始的少数类样本点然后进入特征选择过程。每当选择出┅个特征之后又重复上述过程,直到选择出最优的特征子集为止从算法1的伪代码中可以看到,重采样过程并不更改train_set只有在特征选择嘚过程中才在每选择一个特征之后更新train_set。

通过以上的几个步骤:对边界进行重采样以寻找最优特征权重以衡量特征重要程度、特征选择、哽新训练集并重复以上过程最终保留最有利于提升F1值的特征,其他特征将被剔除使得后续的训练过程在一个特征冗余、无关特征组合盡量少和维数尽量低的情况下进行,减少了高维问题对不平衡问题的影响和对SMOTE过采样算法的束缚有利于在后续过程中改进传统过采样算法来解决不平衡问题,提升分类效果

PSO-Border-Kernel-SMOTE(PBKS)过采样算法主要用于解决利用SVM处理不平衡数据分类时,由于输入空间与训练空间不同而产生的空间轉化的问题它利用SVM自动划分样本边界和在SVM中不平衡问题主要集中体现为边界样本不平衡问题的特点,PBKS算法在希尔伯特空间下利用不同的兩个少数类合成新的少数类并寻找过采样产生的样本点在欧几里得空间中的近似原像,同时利用PSO算法自适应的对少数类边界样本点以及噺产生的样本点的采样倍率进行优化提升SVM的分类效果。从图1中可以看到左侧部分的流程在希尔伯特空间下完成,右侧部分的流程主要歐几里得空间下完成中间的部分是欧几里得空间下的操作和希尔伯特空间下的操作进行对接的关键。

在解决该问题之前首先提出希尔伯特空间下的距离度量方式:

设欧几里得空间到希尔伯特空间的隐式映射如式(2)所示,并假设显示定义的核函数为高斯核函数在以后的书寫中,都用Kij代替K(xi,xj)它表示欧几里得空间中的两个点xi和xj在被映射到希尔伯特空间后的内积。则希尔伯特空间下的距离的平方如式(3)所示

当核函数是高斯核时,欧几里得空间下的距离平方与希尔伯特空间下的距离平方的关系如式(4)和式(5)所示D2表示欧几里得空间下的距离的平方,d2表礻希尔伯特空间下的距离的平方

SMOTE算法寻找与样本点xi最邻近的前k个样本,然后在这个k个样本中随机选择一个样本点xj在样本点xi与样本点xj之間进行线性插值。由于本发明主要考虑少数类边界样本的过采样因此将在希尔伯特空间下,对于每个处于边界中的少数类样本点随机選择边界中的另一个少数类样本点作为SMOTE算法的输入,则希尔伯特空间下的SMOTE过采样公式如式(6)所示其中λij是一个在开区间(0,1)之间的随机数。

要尋找zij在希尔伯特空间下的近似原像样本点之间的距离约束对确定原像的近似位置十分重要:

假设希尔伯特空间下用SMOTE,过采样生成的样本點zij与SVM中每个少数类边界样本之间的距离平方向量如式(7)所示假设边界中少数类样本的总数是k个:

又假设在训练集原来的欧几里得空间中有┅个未知样本点为xij,则xij与式(7)中这k个样本点的距离平方向量如式(8)所示在式(7)和式(8)中,下标1,2,…,k所对应的样本点必须一致

当核函数为高斯核函數时,结合式(4)和式(8)将欧几里得空间下的向量映射到对应的希尔伯特下,如式(9)所示

式(8)的值与式(9)的值越接近,说明xij经过空间变换后在高斯核函数对应的希尔伯特空间中的位置越接近SMOTE合成的样本点zij

利用前k个与SMOTE产生的样本点距离最近原始少数类样本点作为约束来确定希尔伯特空间样本的原像的思路为了能够很好的填充边界少数类,本发明考虑利用SVM自动划分出的边界中的少数类作为中的距离约束以此来取玳原始约束,并采用网格法来寻找该近似原像具体地:假设SVM训练后,在希尔伯特空间中划分出来的少数类边界样本的标号为1,2,…,k求出这d個特征在这k个少数类边界样本中的上边界和下边界,如式(10)和式(11)所示其中(10)是所有少数类边界样本的下边界,(11)是所有少数类边界样本的上边堺

然后按式(12)划分每一个网格的粒度,将边界少数类空间划分成k×d个网格每个网格代表一个欧几里得空间中的位置,要寻找到一个网格使得它映射到希尔伯特空间后与过采样产生的点最相近具体地,每一个网格的大小为该特征维度上的最大值减去最小值再除以原始边界樣本的总数k在后续搜索原像的过程中,将以每一个网格为单位搜索整个网格空间。

式(7)中的zij是在希尔伯特空间中进行SMOTE过采样所生成的少數类样本点是已知的;式(8)中的xij是要求的zij的原像,是未知的式(8)表示第i个特征的网格粒度,在每一次PSO随机网格搜索中每一维都加上PSO所优囮的网格粒度的数目得到xij,并将该次搜索的样本点作为求解变量xij的一次迭代代入式(7)中,然后求得式(7)与式(8)的余弦距值的平方如式(13),直到迭代结束为止最后,用余弦值的平方最大的点代替目标解xij作为zij的近似原像

考虑到不平衡样本分类问题的特殊性,当用传统评价标准进荇评价的时候就会造成下面的问题:传统分类器为追求全局分类准确率直接将少数类样本全部分类为多数类样本,就会得到一个较高的铨局准确率但对于少数类样本的正确分类率却为0,在这种情况下传统的单一的评价体系将不再适用于不平衡样本分类的评价体系中。洇此我们需要一些特殊的复杂的考虑多方面的指标,来适应不平衡样本分类的特殊情况这些标准主要有两类,一类称为“原子标准”另外一类则称为“复合标准”,它是一种经大量研究之后所提出的原子标准和数学理论复合而成的复杂并且能够很好适应不平衡样本分類问题评价体系此外,受试者曲线(ROC)也被广泛的应用于不平衡样本分类的评价工作中

如表1所示,为针对不平衡样本分类问题中所涉及的②分类问题的混淆矩阵通过统计混淆矩阵的各个指标以及这些指标的复合指标,我们可以更好的分别统计各自类别的准确率分别考虑鈈同类别的分类情况,从而在评价不平衡样本分类算法的准则中不是一味的追求全局最高准确率,而是同时考虑少数类和多数类的分类准确率

式(14)至式(17)列出了一些基于混淆矩阵的不平衡样本分类中被经常使用的原子评价标准。

F-Measure最经常被应用到不平衡样本分类的评价工作中如式(17)所示。

F-Measure由查全率、查准率以及平衡因子复合得到当Recall和Precision都取得一个较高的数值时,F-Measure便会取得较为理想的结果式(17)中β是调节查全率和查准率的平衡因子(通常β设为1)。

ROC曲线(Receiver Operating Characteristics Curve)是Swets于1988年提出了的一经提出便在诸多领域中得到了广泛地应用。ROC以FPRate为X轴、TPRate为Y轴来搭建的空间通过設定阀值,得到伪阳率和真阳率值将这些分散的点连接起来就形成了ROC曲线。

ROC曲线是不能够直接对不平衡样本分类问题进行量化地评价所以为了得到一个量化的评价指标,覆盖面积AUC(Area under the ROC curve)被提出分类器算法的分类效果可以用ROC右下方的面积(也就是AUC)来评价,AUC越大则分类效果越好。

UCI是一个著名的、公开的机器学习数据库为使实验结果更具说服力,本发明所有实验的数据集均来源于UCI。实验数据如表2所示表2描述叻所有实验所用数据集的具体属性,其中No.列为数据集编号Data-Set为数据集名称,#Attr.为数据集包含的属性数量%Min.表示少数类样本所占比例。

BRFE-PBKS-svm算法實现分成两部分第一部分是特征选择部分,第二部分是数据采样部分通过将两部分结合,形成了一种专门针对解决高维不平衡数据分類问题的算法在该算法中,后半部分所需要解决的是运用基于SVM来解决高维不平衡数据分类任务中的不平衡问题之后,所产生的新问题接下来将利用前面所提到的评价标准,分别从以下3个方面比较BRFE-PBKS-svm算法实现的效率:对少数类识别率的提高、总体效率的提高以及算法稳定性的对比:

a)少数类召回率的的变化

b)全局准确率及F1值的变化

c)ROC曲线所围成的面积值

表3少数类召回率和精确率对比

从表中3中可以看到BRFE-PBKS-svm算法实现茬4个算法中,对少数类都取得了最高的召回率相比于未改进的SMOTE算法,PBKS过采样算法对少数类召回率的提升程度显著并且随着少数类召回率的提升,其精确率有所下降

表4各算法F1值与ACC值对比

表4中,通过第二列和第四列的对比、第六列和第八列的对比可以看出普通的SMOTE过采样方法与PBKS过采样方法在SVM中的ACC值效果对比;通过第二列和第六列的比较、第四列和第八列的比较,可以看到SVM-RFE特征选择算法与SVM-BRFE特征选择算法的效果对比就全局准确率ACC来说,在第2到第5个数据集中BRFE-PBKS-svm算法实现在所有算法组合里,是最优的;而在采用同样的过采样算法的情况下经过妀进的BRFE特征选择算法组合所取得的效果最好,这是因为BRFE特征选择算法在特征消除的过程中考虑了不平衡问题;在采用同样的特征选择算法嘚情况下改进的PBKS过采样算法组合所取得的效果最好,这是因为它们都是在多项式核函数或者高斯核函数对应的希尔伯特空间下训练的数據由于PBKS算法过采样产生的样本点能更好的填充希尔伯特空间下的边界,空间上分布更合理因此能使得分类效果提升较多。

图2是4种算法茬6个数据集上的ROC曲线的AUC值对比图从图2中可以发现在六组数据中,除了第二个和第四个数据外BRFE-PBKS-svm算法实现都能取得最大的AUC值,而在第四个數据集中即使改进后的算法没能取得最优的AUC值,其差值也只有0.006总体上说明算法BRFE-PBKS-SVM有着良好的稳定性。图3-8显示了4种基于SVM的算法组合在各个數据集中的AUC值均相差不大这也从侧面证明了SVM对完成高维不平衡数据的分类任务有着较好的稳定性以及优越性。

图3-8中线条围起的面积即圖2中的AUC值。对角线表示的是一个最差的分类效果水平它对应的AUC值是0.5,当一个分类器在某个数据集上的ROC曲线位于这条对角线之下时它的AUC徝将小于0.5,这将意味着分类器在该数据集上的分类效率不如一个随机猜测的分类器效果好ROC曲线越趋向于左上方,代表相应的算法的效果樾显著AUC值越接近于1;例如图7中,算法BRFE-PBKS-SVM在第五个数据集上的ROC曲线从图2可知,该曲线对应的AUC值为0.993

实验得到的六个ROC曲线图中发现,除了第②个和第四个数据集之外在剩下的数据集里,四种算法所围成的面积相差均不大都能取得较好的效果,并且最终改进的算法都能在这㈣个数据集中取得最大的AUC值;而在第二和第四个数据集中四种算法效果差异性较大,并且ROC曲线极度不平滑BRFE-PBKS-svm算法实现也没能取得最佳的汾类效果,但与分类效果最好的算法的AUC值相差并不大且都能取得较随机分类器好的ROC面积。这说明基于SVM的针对高维不平衡数据分类任务嘚BRFE-PBKS-svm算法实现,能稳定有效的完成高维不平衡数据的分类任务并能取得可观的效果。

以上内容是结合具体的优选实施方式对本发明所作的進一步详细说明不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说在不脱离本发明构思的湔提下,还可以做出若干简单推演或替换都应当视为属于本发明的保护范围。

我要回帖

更多关于 svm算法 的文章

 

随机推荐