【相关系数怎么计算】在数据分析和统计学中,相关系数是一个非常重要的概念,用来衡量两个变量之间的线性关系程度。常见的相关系数有皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。下面我们将对这些常见相关系数的计算方法进行总结,并以表格形式展示。
一、相关系数简介
| 相关系数类型 | 适用数据类型 | 衡量关系 | 是否受异常值影响 |
| 皮尔逊相关系数 | 连续变量 | 线性关系 | 是 |
| 斯皮尔曼相关系数 | 排序数据或非正态分布 | 单调关系 | 否 |
| 肯德尔相关系数 | 分类数据(有序) | 一致性关系 | 否 |
二、皮尔逊相关系数(Pearson Correlation Coefficient)
定义:
皮尔逊相关系数用于衡量两个连续变量之间的线性相关程度,取值范围在 -1 到 +1 之间。
公式:
$$
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}
$$
其中:
- $ x_i, y_i $:分别是两个变量的观测值;
- $ \bar{x}, \bar{y} $:分别是两个变量的平均值。
说明:
- r = 1 表示完全正相关;
- r = -1 表示完全负相关;
- r = 0 表示无线性相关。
三、斯皮尔曼相关系数(Spearman Correlation Coefficient)
定义:
斯皮尔曼相关系数是基于变量的排序(等级)来计算的,适用于非正态分布或非线性关系的数据。
计算步骤:
1. 对两个变量分别进行排序,得到各自的排名;
2. 计算每个样本在两个变量中的排名差;
3. 使用以下公式计算相关系数:
$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
其中:
- $ d_i $:第 i 个样本的两个变量排名差;
- n:样本数量。
说明:
- ρ 的取值范围同样是 -1 到 +1;
- 更适合处理非线性或存在异常值的数据。
四、肯德尔相关系数(Kendall Correlation Coefficient)
定义:
肯德尔相关系数用于衡量两个有序分类变量之间的一致性程度,常用于评估评分者间的一致性。
常用公式:
$$
\tau = \frac{C - D}{\frac{1}{2} n(n - 1)}
$$
其中:
- C:一致对数;
- D:不一致对数;
- n:样本数量。
说明:
- τ 的取值范围为 -1 到 +1;
- 更适合小样本或有序分类数据。
五、总结对比表
| 指标 | 皮尔逊相关系数 | 斯皮尔曼相关系数 | 肯德尔相关系数 |
| 数据类型 | 连续变量 | 排序数据/非正态 | 有序分类数据 |
| 测量关系 | 线性关系 | 单调关系 | 一致性关系 |
| 受异常值影响 | 是 | 否 | 否 |
| 适用场景 | 正态分布、线性关系 | 非正态、单调关系 | 分类数据、评分一致性 |
通过以上介绍,我们可以根据数据的类型和分析目的选择合适的相关系数进行计算。了解相关系数的意义与计算方式,有助于更准确地解读数据之间的关系。


