高级技巧

GroupBy对象在apply后会返回DataFrame,在apply时传入的是每组的DataFrame

.loc[]方法访问原始数据,而直接[]访问的是副本

协方差系数 Link to heading

DataFrame.corr()方法计算两个变量(Series)之间的相关系数
取值范围为[-1,1]
-1表示完全负相关
1表示完全正相关

实例:

import pandas as pd
import seaborn as sns
data = pd.DataFrame([[1, 6, 7, 5, 1], [2, 10, 8, 3, 4], [3, 4, 0, 10, 2]], columns=[
                    'val1', 'val2', 'val3', 'val4', 'val5'])
print(data)
   val1  val2  val3  val4  val5
0     1     6     7     5     1
1     2    10     8     3     4
2     3     4     0    10     2

画出相关系数矩阵的热力图

sns.heatmap(data.corr(), linewidths=0.1, vmax=1.0,
            square=True, linecolor='white', annot=True)

相关系数的热力图