如何计算方差和平均值
在日常工作中,会碰到需要重复统计某些固定范围的数据,而这些数据往往有以下的特点:
- 数据可能是每天都需要更新;
- 每天的数据量非常大;
- 最终需要快速展示多天数据的统计信息:方差,期望;
- 统计所用内存不能太大;
从以上的条件中可以看到,方差和均值的计算必须是增量式的,不能存储中间的结果;庆幸的是,数学总是很奇妙,可以满足我们磕磕绊绊的需求。
递推公式
平均值计算:
\[{ E }_{ n }={ E }_{ n-1 }+\frac { { X }_{ n }-{ E }_{ n-1 } }{ n } ,\quad 其中{ E }_{ n }=\frac { \sum _{ i=1 }^{ n }{ { x }_{ n } } }{ n } ,{ E }_{ n }={ x }_{ 0 }.\]方差计算:
\[F_{ n }={ F }_{ n-1 }+({ x }_{ n }-{ F }_{ n-1 })({ x }_{ n }-{ F }_{ n }),\quad { 其中{ { S }_{ n } }^{ 2 } }=\frac { { F }_{ n } }{ n } =\frac { \sum _{ i-1 }^{ n }{ { ({ x }_{ i }-{ E }_{ n }) }^{ 2 } } }{ n } ,{ { S }_{ 0 } }^{ 2 }=0.\]所以每次迭代都可以直接通过上一次的结果得到当前的平均值和方差,下面给出一些公式的推导。
公式推导
平均值推导
平均值定义:\({ E }_{ n }=\frac { \sum _{ i=1 }^{ n }{ { x }_{ n } } }{ n } ,\)所以可以得到如下推导:
\({ E }_{ n }=\frac { \sum _{ i=1 }^{ n }{ { x }_{ n } } }{ n } =\frac { \sum _{ i=1 }^{ n-1 }{ { x }_{ i } } +{ x }_{ n } }{ n } =\frac { (n-1)\frac { \sum _{ i=1 }^{ n-1 }{ { x }_{ i } } }{ n-1 } +{ x }_{ n } }{ n } =\frac { (n-1){ E }_{ n-1 }+{ x }_{ n } }{ n } ={ E }_{ n-1 }+\frac { { x }_{ n }-{ E }_{ n-1 } }{ n }\),
其中其中\({ E }_{ 0 }={ x }_{ 0 }\).
方差推导
方差定义: \({ { { S }_{ n } }^{ 2 } }=\frac { \sum _{ i-1 }^{ n }{ { ({ x }_{ i }-{ E }_{ n }) }^{ 2 } } }{ n }\).
为了推导方便,令\({ F }_{ n }=\sum _{ i=1 }^{ n }{ { ({ x }_{ i }-{ E }_{ n }) }^{ 2 } }.\), 想要获得方差,其实就是需要计算函数F在n处的值,已下给出相关推导:
\({ F }_{ n }-{ F }_{ n-1 }=\sum _{ i=1 }^{ n }{ { ({ x }_{ i }-{ E }_{ n }) }^{ 2 } } -\sum _{ i=1 }^{ n-1 }{ { ({ x }_{ i }-{ E }_{ n-1 }) }^{ 2 }= } \sum _{ i=1 }^{ n }{ { ({ x }_{ i }-{ E }_{ n-1 }+{ E }_{ n-1 }-{ E }_{ n }) }^{ 2 } } -\sum _{ i=1 }^{ n-1 }{ { ({ x }_{ i }-{ E }_{ n-1 }) }^{ 2 } }\),
继续展开第一项中的平方:
\({ F }_{ n }-{ F }_{ n-1 }={ ({ x }_{ n }-{ E }_{ n-1 }) }^{ 2 }+\sum _{ i=1 }^{ n-1 }{ { ({ x }_{ i }-{ E }_{ n-1 }) }^{ 2 } } +2({ E }_{ n-1 }-{ E }_{ n })\sum _{ i=1 }^{ n }{ ({ x }_{ i }-{ E }_{ n-1 }) } +\sum _{ i=1 }^{ n }{ { ({ E }_{ n-1 }-{ E }_{ n }) }^{ 2 } } -\sum _{ i=1 }^{ n-1 }{ { ({ x }_{ i }-{ E }_{ n-1 }) }^{ 2 } }\),
第二项和第五项消掉并且直接计算第三四项求和:
\({ F }_{ n }-{ F }_{ n-1 }={ ({ x }_{ n }-{ E }_{ n-1 }) }^{ 2 }+2({ E }_{ n-1 }-{ E }_{ n })({ nE }_{ n }-{ nE }_{ n-1 })+{ n({ E }_{ n-1 }-{ E }_{ n }) }^{ 2 }\),
根据平均值的计算可以推导如下:
\({ E }_{ n }={ E }_{ n-1 }+\frac { { x }_{ n }-{ E }_{ n-1 } }{ n } \Rightarrow n{ E }_{ n }=n{ E }_{ n-1 }+{ x }_{ n }-{ E }_{ n-1 }\Rightarrow n({ E }_{ n }-{ E }_{ n-1 })={ x }_{ n }-{ E }_{ n-1 }\),
带入上一步第二项化简:
\({ F }_{ n }-{ F }_{ n-1 }={ ({ x }_{ n }-{ E }_{ n-1 }) }^{ 2 }+2({ x }_{ n }-{ E }_{ n-1 })({ E }_{ n-1 }-{ E }_{ n })+{ n({ E }_{ n-1 }-{ E }_{ n }) }^{ 2 }={ ({ x }_{ n }-{ E }_{ n-1 }) }^{ 2 }-2({ x }_{ n }-{ E }_{ n-1 })({ E }_{ n }-{ E }_{ n-1 })+{ n({ E }_{ n }-{ E }_{ n-1 }) }^{ 2 }\),
后面两项提出公因式后:
\({ F }_{ n }-{ F }_{ n-1 }={ ({ x }_{ n }-{ E }_{ n-1 }) }^{ 2 }+({ E }_{ n }-{ E }_{ n-1 }){ [-2x }_{ n }+2{ E }_{ n-1 }+n({ E }_{ n }-{ E }_{ n-1 })]\),
带入均值推导公式的第二个推导式并化简:
\({ F }_{ n }-{ F }_{ n-1 }={ ({ x }_{ n }-{ E }_{ n-1 }) }^{ 2 }+({ E }_{ n }-{ E }_{ n-1 }){ [{ E }_{ n-1 }-x }_{ n }]\),
整理顺序看起来更加清晰:
\({ F }_{ n }-{ F }_{ n-1 }={ ({ x }_{ n }-{ E }_{ n-1 }) }^{ 2 }-({ x }_{ n }-{ E }_{ n-1 })({ E }_{ n }-{ E }_{ n-1 })\),
提取公因式获得最终的最简式:
\({ F }_{ n }-{ F }_{ n-1 }=({ x }_{ n }-{ E }_{ n-1 })({ x }_{ n }-{ E }_{ n })\),
因此可以得到如下公式:
\({ F }_{ n }={ F }_{ n-1 }+({ x }_{ n }-{ E }_{ n-1 })({ x }_{ n }-{ E }_{ n })\),
其中\({ F }_{ 0 }={ 0 }\).
证毕.
编码实现
java版本
(未完待续)