pcapython函数 python中pca函数

PCA(主成分分析)python实现

回顾了下PCA的步骤，并用python实现。深刻的发现当年学的特征值、特征向量好强大。

创新互联建站提供成都网站设计、成都做网站、网页设计，成都品牌网站建设，1元广告等致力于企业网站建设与公司网站制作，十余年的网站开发和建站经验,助力企业信息化建设，成功案例突破1000+,是您实现网站建设的好选择.

PCA是一种无监督的学习方式，是一种很常用的降维方法。在数据信息损失最小的情况下，将数据的特征数量由n，通过映射到另一个空间的方式，变为k(kn)。

这里用一个2维的数据来说明PCA，选择2维的数据是因为2维的比较容易画图。

这是数据：

画个图看看分布情况：

协方差的定义为：

假设n为数据的特征数，那么协方差矩阵M, 为一个n n的矩阵，其中Mij为第i和第j个特征的协方差，对角线是各个特征的方差。

在我们的数据中，n=2，所以协方差矩阵是2 2的，

通过numpy我们可以很方便的得到：

得到cov的结果为：

array([[ 0.61655556, 0.61544444],

[ 0.61544444, 0.71655556]])

由于我们之前已经做过normalization，因此对于我们来说，

这个矩阵就是 data*data的转置矩阵。

得到结果：

matrix([[ 5.549, 5.539],

[ 5.539, 6.449]])

我们发现，其实协方差矩阵和散度矩阵关系密切，散度矩阵就是协方差矩阵乘以（总数据量-1）。因此他们的特征根和特征向量是一样的。这里值得注意的一点就是，散度矩阵是 SVD奇异值分解的一步，因此PCA和SVD是有很大联系的，他们的关系这里就不详细谈了，以后有机会再写下。

用numpy计算特征根和特征向量很简单，

但是他们代表的意义非常有意思，让我们将特征向量加到我们原来的图里：

其中红线就是特征向量。有几点值得注意：

蓝色的三角形就是经过坐标变换后得到的新点，其实他就是红色原点投影到红线、蓝线形成的。

得到特征值和特征向量之后，我们可以根据特征值的大小，从大到小的选择K个特征值对应的特征向量。

这个用python的实现也很简单：

从eig_pairs选取前k个特征向量就行。这里，我们只有两个特征向量，选一个最大的。

主要将原来的数据乘以经过筛选的特征向量组成的特征矩阵之后，就可以得到新的数据了。

output：

数据果然变成了一维的数据。

最后我们通过画图来理解下数据经过PCA到底发生了什么。

绿色的五角星是PCA处理过后得到的一维数据，为了能跟以前的图对比，将他们的高度定位1.2，其实就是红色圆点投影到蓝色线之后形成的点。这就是PCA,通过选择特征根向量，形成新的坐标系，然后数据投影到这个新的坐标系，在尽可能少的丢失信息的基础上实现降维。

通过上述几步的处理，我们简单的实现了PCA第一个2维数据的处理，但是原理就是这样，我们可以很轻易的就依此实现多维的。

用sklearn的PCA与我们的pca做个比较：

得到结果：

用我们的pca试试

得到结果：

完全一致，完美~

值得一提的是，sklearn中PCA的实现，用了部分SVD的结果，果然他们因缘匪浅。

python pca怎么得到主成份

一般步骤来实现PCA算法

（1）零均值化

假如原始数据集为矩阵dataMat，dataMat中每一行代表一个样本，每一列代表同一个特征。零均值化就是求每一列的平均值，然后该列上的所有数都减去这个均值。也就是说，这里零均值化是对每一个特征而言的，零均值化都，每个特征的均值变成0。实现代码如下：

[python] view plain copy

def zeroMean(dataMat):

meanVal=np.mean(dataMat,axis=0) #按列求均值，即求各个特征的均值

newData=dataMat-meanVal

return newData,meanVal

函数中用numpy中的mean方法来求均值，axis=0表示按列求均值。

该函数返回两个变量，newData是零均值化后的数据，meanVal是每个特征的均值，是给后面重构数据用的。

（2）求协方差矩阵

[python] view plain copy

newData,meanVal=zeroMean(dataMat)

covMat=np.cov(newData,rowvar=0)

numpy中的cov函数用于求协方差矩阵，参数rowvar很重要！若rowvar=0，说明传入的数据一行代表一个样本，若非0，说明传入的数据一列代表一个样本。因为newData每一行代表一个样本，所以将rowvar设置为0。

covMat即所求的协方差矩阵。

（3）求特征值、特征矩阵

调用numpy中的线性代数模块linalg中的eig函数，可以直接由covMat求得特征值和特征向量：

[python] view plain copy

eigVals,eigVects=np.linalg.eig(np.mat(covMat))

eigVals存放特征值，行向量。

eigVects存放特征向量，每一列带别一个特征向量。

特征值和特征向量是一一对应的

（4）保留主要的成分[即保留值比较大的前n个特征]

第三步得到了特征值向量eigVals，假设里面有m个特征值，我们可以对其排序，排在前面的n个特征值所对应的特征向量就是我们要保留的，它们组成了新的特征空间的一组基n_eigVect。将零均值化后的数据乘以n_eigVect就可以得到降维后的数据。代码如下：

[python] view plain copy

eigValIndice=np.argsort(eigVals) #对特征值从小到大排序

n_eigValIndice=eigValIndice[-1:-(n+1):-1] #最大的n个特征值的下标

n_eigVect=eigVects[:,n_eigValIndice] #最大的n个特征值对应的特征向量

lowDDataMat=newData*n_eigVect #低维特征空间的数据

reconMat=(lowDDataMat*n_eigVect.T)+meanVal #重构数据

return lowDDataMat,reconMat

代码中有几点要说明一下，首先argsort对特征值是从小到大排序的，那么最大的n个特征值就排在后面，所以eigValIndice[-1:-(n+1):-1]就取出这个n个特征值对应的下标。【python里面，list[a:b:c]代表从下标a开始到b，步长为c。】

python3.5做分类时，混淆矩阵加在哪一步

preface：做着最近的任务，对数据处理，做些简单的提特征，用机器学习算法跑下程序得出结果，看看哪些特征的组合较好，这一系列流程必然要用到很多函数，故将自己常用函数记录上。应该说这些函数基本上都会用到，像是数据预处理，处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果，得出报告。

1.输入

从数据集开始，提取特征转化为有标签的数据集，转为向量。拆分成训练集和测试集，这里不多讲，在上一篇博客中谈到用StratifiedKFold()函数即可。在训练集中有data和target开始。

2.处理

[python] view plain copy

def my_preprocessing(train_data):

from sklearn import preprocessing

X_normalized = preprocessing.normalize(train_data ,norm = "l2",axis=0)#使用l2范式，对特征列进行正则

return X_normalized

def my_feature_selection(data, target):

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

data_new = SelectKBest(chi2, k= 50).fit_transform(data,target)

return data_new

def my_PCA(data):#data without target, just train data, withou train target.

from sklearn import decomposition

pca_sklearn = decomposition.PCA()

pca_sklearn.fit(data)

main_var = pca_sklearn.explained_variance_

print sum(main_var)*0.9

import matplotlib.pyplot as plt

n = 15

plt.plot(main_var[:n])

plt.show()

def clf_train(data,target):

from sklearn import svm

#from sklearn.linear_model import LogisticRegression

clf = svm.SVC(C=100,kernel="rbf",gamma=0.001)

clf.fit(data,target)

#clf_LR = LogisticRegression()

#clf_LR.fit(x_train, y_train)

#y_pred_LR = clf_LR.predict(x_test)

return clf

def my_confusion_matrix(y_true, y_pred):

from sklearn.metrics import confusion_matrix

labels = list(set(y_true))

conf_mat = confusion_matrix(y_true, y_pred, labels = labels)

print "confusion_matrix(left labels: y_true, up labels: y_pred):"

print "labels\t",

for i in range(len(labels)):

print labels[i],"\t",

for i in range(len(conf_mat)):

print i,"\t",

for j in range(len(conf_mat[i])):

print conf_mat[i][j],'\t',

def my_classification_report(y_true, y_pred):

from sklearn.metrics import classification_report

print "classification_report(left: labels):"

print classification_report(y_true, y_pred)

my_preprocess()函数：

主要使用sklearn的preprocessing函数中的normalize()函数，默认参数为l2范式，对特征列进行正则处理。即每一个样例，处理标签，每行的平方和为1.

my_feature_selection()函数：

使用sklearn的feature_selection函数中SelectKBest()函数和chi2()函数，若是用词袋提取了很多维的稀疏特征，有必要使用卡方选取前k个有效的特征。

my_PCA()函数：

主要用来观察前多少个特征是主要特征，并且画图。看看前多少个特征占据主要部分。

clf_train()函数：

可用多种机器学习算法，如SVM, LR, RF, GBDT等等很多，其中像SVM需要调参数的，有专门调试参数的函数如StratifiedKFold()（见前几篇博客）。以达到最优。

my_confusion_matrix()函数：

主要是针对预测出来的结果，和原来的结果对比，算出混淆矩阵，不必自己计算。其对每个类别的混淆矩阵都计算出来了，并且labels参数默认是排序了的。

my_classification_report()函数：

主要通过sklearn.metrics函数中的classification_report()函数，针对每个类别给出详细的准确率、召回率和F-值这三个参数和宏平均值，用来评价算法好坏。另外ROC曲线的话，需要是对二分类才可以。多类别似乎不行。

主要参考sklearn官网

如何用python实现pca降维

首先2个包：

import numpy as np

from sklearn.decomposition import PCA

然后一个m x n 的矩阵，n为维度，这里设为x。

n_components = 12 是自己可以设的。

pca = PCA(n_components=12)

pca.fit(x)

PCA(copy=True, iterated_power='auto', n_components=12, random_state=None,

svd_solver='auto', tol=0.0, whiten=False)

float_formatter = lambda x: "%.2f" % x

np.set_printoptions(formatter={'float_kind':float_formatter})

print 'explained variance ratio:'

print pca.explained_variance_ratio_

print 'cumulative sum:'

print pca.explained_variance_ratio_.cumsum()

python培训入门教程？怎样入门呢？

python作为一个编程语言，具有与其他编程语言同等的能力。冠冕堂皇地讲，是所有语言都是图灵等价的。不过python作为一门语言，尤其独特的优点，简单易学，内置了很多库。也很容易扩展。Python培训课程如何学？

可以选一本通俗易懂的书，找一个好的视频资料，然后自己装一个IDE工具开始边学边写。下面我具体来讲讲:

1.找一本靠谱的书，难度一定要是入门级别，千万不能太复杂，不要一下子陷进去，会打乱节奏，学东西要循序渐进，不能一口吃个胖子.打个比方，学过java的同学都听过大名鼎鼎的thinking in java,这边书很厚很全，若一上来就学，肯定会吃力，时间长了就会失去兴趣，因此对初学者来说，一定要找一本通熟易懂的，简单的书。入门的书非常关键。

入门的书很多，但是我个人强烈推荐《A Byte of Python》，这本书我读了2遍，作者写作思路非常清晰，对每个知识点讲解很到位，不多不少。对初学者来说，力道刚刚好。而且是全英文，对提高自己的英语水平也很有帮助。

网上有人会推荐《笨办法学Python》,我个人觉得这本书没有《A Byte of Python》好。一般有一些编程基本，我建议直接看《A Byte of Python》。这本书的销量已经破百万了，而且在豆瓣上点评有8.8,可谓是入门级的神书.电子版大家可以在CSDN 搜一下就有，都是高清的。

2.找一个靠谱的师傅。Python编程是一个十分系统的技术体系，有时候光靠看书和网上的视频，只能是一知半解，遇到问题，没有人给你讲解其中的原理和流程，那么对于整个技术点的理解就永远不会通透。况且，编程不只是知识，还涉及到做具体的项目，在做项目中，如果有人带，进步才是最神速的。

3.多编写程序，这似乎是废话，但是确实是一句实话。学编程一定要亲身去编写，没有什么捷径。一开始哪怕你把书里面的例子一字不落敲一遍，也好过你只是去看书，而不动手。

而且学python 最好是坚持编，每天抽小半个小时，学一些知识点,不断坚持.快的话几个星期基本就能入门了。

如何用pca做人脸识别 python实现.带客户端的

基于特征脸(PCA)的人脸识别方法

特征脸方法是基于KL变换的人脸识别方法，KL变换是图像压缩的一种最优正交变换。高维的图像空间经过KL变换后得到一组新的正交基，保留其中重要的正交基，由这些基可以张成低维线性空间。如果假设人脸在这些低维线性空间的投影具有可分性，就可以将这些投影用作识别的特征矢量，这就是特征脸方法的基本思想。这些方法需要较多的训练样本，而且完全是基于图像灰度的统计特性的。目前有一些改进型的特征脸方法。

比如人脸灰度照片40x40=1600个像素点，用每个像素的灰度值组成的矩阵代表这个人的人脸。那么这个人人脸就要1600 个特征。拿一堆这样的样本过来做pca，抽取得到的只是在统计意义下能代表某个样本的几个特征。

人脸识别可以采用神经网络深度学习的思路，国内的ColorReco在这边有比较多的案例。

本文名称：pcapython函数 python中pca函数
文章地址：http://bzwzjz.com/article/hepsho.html

用户体验为先导为品牌带来生命力

pcapython函数 python中pca函数

PCA(主成分分析)python实现

python pca怎么得到主成份

python3.5做分类时，混淆矩阵加在哪一步

如何用python实现pca降维

python培训入门教程？怎样入门呢？

如何用pca做人脸识别 python实现.带客户端的

其他资讯

用户体验为先导 为品牌带来生命力

pcapython函数 python中pca函数

PCA(主成分分析)python实现

python pca怎么得到主成份

python3.5做分类时，混淆矩阵加在哪一步

如何用python实现pca降维

python培训入门教程？怎样入门呢？

如何用pca做人脸识别 python实现.带客户端的

其他资讯

用户体验为先导为品牌带来生命力