本节核心:统计概念和市场收益率Statistical Concepts and Market Returns
统计的必备知识
统计分为两类,描述性统计和推断性统计。
名词解释:描述性统计
描述性统计(descriptive statistics),主要用于描述和扩大数据集合的重要统计特性。
名词解释:推断统计
推断统计(inferential statistics)主要研究如何根据小数据集合(样本)的统计特征去推断大数据集合的特征。
比如我们知道很多人讲身边越来越多人离婚了,然后得出一个结论现在离婚率高,这就是一个很经典的推断统计。根据身边的样本推断出总体特征。当然,虽然这个结论有待商榷,但是由身边现象到全部情况的确是我们的一种习惯思维,也有些认知偏差的意味在里头。
所以有了统计,自然就有了概率和频率。而一般我们所说的频数又叫绝对频率(abosulute frequency),指总体中各个观测值落在不同区间的次数。
而频数(绝对频率)除以总频数,就得到了相对频率(realative frequency)。
比如抽了20次纸牌,其中抽中2次A。那么频数或绝对频率即为2,频率即为10%。(吐槽一下:还是中学时候讲的频数和频率比较顺,CFA里的定义太拗口。)
统计的度量
对集中程度的度量,一般用的是众数、中位数和平均数。
名词解释:算术平均数
算术平均数(arithemetic mean)最简单,就是所有观测值加总再除以观测值的个数。
算术平均数的特性:所有观测值点到算术平均数的距离之和为零;它非常容易受极值影响。
名词解释:加权平均数
加权平均数(weighted mean)就是给不同观测值配上不同权重,然后求得平均值。
可以说,算术平均数就是加权平均数中所有观测值权重均为1的特殊形态。
名词解释:几何平均数
几何平均数(egeometric mean)是对各变量值的连乘积开项数次方根,最常用的情景就是某投资若干年时间内的平均收益率。
名词解释:调和平均数
调和平均数(harmonic mean)较为少见,又称为倒平均数,是各变量倒数的算术平均数的倒数。比较常用的例子,是计算同样价格总额下,多只股票一段时间内的平均购买成本。
在数学上来讲,调和平均数≤几何平均数≤算术平均数。
除了平均数平均数,往往还需要了解众数和中位数,以减少极值的影响,或能更直观观察大数分布。
同时,可能经常会用到的还有分位数,比如四分位(quartile),五分位(quintile),十分位(decile)和百分位(percentile)。
说完了对集中程度的度量,自然要谈对离散程度的度量。一般而言,对集中程度的度量代表了收益预估,而对离散程度的度量代表了风险判断。
首先是平均绝对离差(mean absolute deviation,MAD),是个观测数与其算术平均数之间绝对距离之和的平均值。该值越小,说明数据越集中,离散程度也越小。
而MAD中的绝对值换成平方,即可得到方差(variance)的表达式。方差开平方,就会得到标准差(standard deviation)。
然后热衷于折腾的金融从业人员还不满足于此,弄出了半方差(semi-variance)和目标半方差(target semi-variance),专门用来衡量下行风险。
顾名思义,收益率曲线对称分布时,半方差是方差的一半。不对称分布时,则需要计算均值以下数据的方差。
偏离分布描述
切比雪夫不等式是说,对于任意一组观测值,假设k为大于1的任意常数,则单个观测值落在均值周围k个标准差之内的概率不小于(1-1/k**2)。
名词解释:变异系数
变异系数(coefficient of variation,CV)用来衡量观测值相对变异程度的一个指标,来源于标准差与平均值的比值。
同时,它也等于波动幅度除以均值,因此可以用来衡量1单位预期收益所承担的风险。
名词解释:偏度
偏度(skewness)用来衡量统计数据分布偏斜方向和偏斜程度的指标,反映了统计数据非对称分布的程度,在数据表上看,就是函数曲线尾部的相对长度。
其中右偏态为右边尾部比左边长,其中众数<中位数<算术平均数。房价、收入等数据一般呈右偏态。
而相对应的,左偏态则是算术平均数<中位数<众数,比如收益率等数据一般呈左偏态较多。
峰度(kurtosis)用来衡量统计数据分布在其平均值处峰值高低的指标。如尖峰(leptokurtic)伴随着肥尾(fat tail),而低峰(platykurtic)则伴随着瘦尾(thin tail)。