量化统计基础:均值/方差/相关性/正态分布,一篇搞懂
量化统计基础
量化交易的本质是用统计方法从数据中提取规律。不懂统计,等于盲人摸象。
一、描述性统计
均值(Mean)
均值是最基本的统计量——一组数据的"平均水平"。
import numpy as np
returns = [0.02, -0.01, 0.03, 0.01, -0.02]
mean_return = np.mean(returns) # 0.006 = 0.6%
在量化中,均值代表策略的平均收益。
标准差(Standard Deviation)
标准差衡量数据的波动程度——数据偏离均值的程度。
std = np.std(returns, ddof=1) # 样本标准差
标准差越大,收益波动越大(风险越高)。在量化中,标准差 = 波动率。
组合意义
| 指标 | 量化含义 |
|---|---|
| 均值 | 平均收益(越高越好) |
| 标准差 | 波动率/风险(越低越好) |
| 均值/标准差 | 风险调整收益(夏普比率的基础) |
二、相关性(Correlation)
协方差
协方差衡量两个变量的同向/反向变动程度:
- Cov > 0:同向变动(一起涨跌)
- Cov < 0:反向变动(一涨一跌)
- Cov = 0:不相关
相关系数
相关系数 = 协方差 / (标准差A × 标准差B),取值 -1 到 +1:
corr = np.corrcoef(stock_a_returns, stock_b_returns)[0,1]
| 相关系数 | 含义 | 组合配置 |
|---|---|---|
| +1 | 完全正相关 | 无分散效果 |
| 0 | 不相关 | 分散效果好 |
| -1 | 完全负相关 | 完美对冲 |
量化应用
- 组合分散:选低相关性的股票组合,降低整体风险
- 因子筛选:高度相关的因子只需留一个
- 配对交易:找高相关股票对,价差回归
三、正态分布
什么是正态分布
正态分布(钟形曲线)是自然界最常见的分布:
- 68% 的数据在 ±1 个标准差内
- 95% 的数据在 ±2 个标准差内
- 99.7% 的数据在 ±3 个标准差内
股票收益近似正态分布
日收益率大致服从正态分布,但有肥尾效应(极端事件比正态分布预测的更频繁)。
量化意义
- 正态假设下,3个标准差以上的日收益(约±3%)应该很少见
- 但实际上,A股经常出现±5%甚至±10%的日子
- 这就是肥尾风险——黑天鹅比想象中更常见
四、假设检验(t检验)
问题
你的策略回测年化收益 15%,但这是真有alpha还是运气好?
t检验
t = (样本均值 - 0) / (样本标准差 / sqrt(n))
- t > 2:有 95% 的把握收益不为零(统计显著)
- t < 1:可能是运气,不可靠
Python 代码
from scipy import stats
t_stat, p_value = stats.ttest_1samp(daily_returns, 0)
if p_value < 0.05:
print("策略收益统计显著")
else:
print("可能是运气")
五、实战建议
- 看收益一定要看波动(均值没意义,均值/标准差才有意义)
- 组合分散是"唯一免费的午餐"(降低风险不降低收益)
- 回测收益要做统计显著性检验
- 警惕肥尾风险——极端亏损比正态分布预测的更频繁