摘要: 【目的】比较不同监督聚类方法的优劣及其适用场合。【方法】应用2种高斯混合模型聚类法(GMM)、K-最近邻居法(KNN)、二分类支持向量机器法(SVMs)以及5种多分类支持向量机器法(MC-SVMs),分别对计算机模拟数据以及两组实际微阵列数据进行聚类分析,采用假阳性(FP)、假阴性(FN)、聚类的准确性以及马修斯相关系数(MCC)等指标进行评价。【结果】(1)对成千上万基因表达谱数据,在服从高斯分布条件下,2种GMM法聚类准确性最高,且在训练样本容量较小的情况下,GMM-II法聚类准确性优于GMM-I法。(2)相比较而言,多分类MC-SVMs法稳健性较高,适用性最广,其对高维数据不敏感。不仅适用于成千上万基因表达谱数据的聚类,而且适用于以成千上万基因作为指标对少数几十个样本的聚类。(3)几种MC-SVMs法的表现,在样本容量较大时,宜采用OVO和DAGSVM法;样本容量较小时,OVR、WW和CS法聚类准确性和MCC值较高;样本容量适中时,5种MC-SVMs表现一致。【结论】建议根据数据的特征以及试验需要,同时选用至少两种方法进行试算,以便获得最佳聚类结果。