统计学可以分为描述统计学和推断统计学。
描述统计学:数据整体的认识;全部数据。
推断统计学:通过抽取样本数据特征来描述整体特性;假设检验。
应用:有数据的地方就有统计学。经济学、医学、心理学、互联网等。
1. 描述统计学
1.1 集中趋势
如何表述集中趋势?
- 均值:算术平均值;
- 中位数:排序后的中间位置的数;如果总数为偶数,中间两个数的平均值作为中位数;
- 众数:出现最多的数;可能是没有的,也可能是有多个众数。不仅适用于数值型,也适用于非数值型。
类型 | 优点 | 缺点 |
---|---|---|
均值 | 适用性强 | 易收到极端值的影响 |
中位数 | 不受极端值影响 | 不敏感 |
众数 | 有明显集中趋势的时候好;不受极端值影响; | 缺乏唯一性;可能有多个或者一个都没有; |
如果数据比较集中或者对称,这几种方式都能很好的描述;
1.2 离散趋势
- 极差:最大值-最小值
- 方差:离中心越远越离散。注意样本方差和总体方差的区别;一般统计软件都以样本方差来计算。方差越小越集中;
- 标准差:方差的平方根;与源数据的单位一致,所以更常用;
1.3 偏态
- 偏度:skew(),对数据分布的偏斜程度的衡量,(x-平均值/标准差)**3的均值,注意如果是样本为n-1;
- 大部分数值比均值小,就是负偏;否则正偏
- 0附近,说明比较集中;
- 峰度:数据分步峰值情况
- 尖峰、中锋、低峰
- 超额峰度:kurt(),与正态分布的比较
- 分位数:正排序,后分开 -上四分位数:25%分位数 -下四分位数:75%分位数
小结
- 基本特征描述有一个函数:describe()
- 方差、协方差、相关系数
2. 推断统计学-假设检验
2.1 基本思想
小概率思想和反证法思想。
- 小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。
- 反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为不假设成立。
2.2 无罪推定原理
无罪推定(presumption of innocence),又可称为无罪类推(与有罪类推相对应),简单地说是指任何人在未经依法判决有罪之前,应视其无罪。
- 零假设(null hypothesis),统计学术语,又称原假设,指进行统计检验时预先建立的假设。 零假设成立时,有关统计量应服从已知的某种概率分布。当统计量的计算值落入否定域时,可知发生了小概率事件,应否定原假设。
- 备择假设(alternative hypothesis)亦称研究假设.统计学的基本概念之一假设检验中需要证实的有关总体分布的假设。
希望假设论断成立,使用备择假设;希望不成立,选择0假设。
2.3 假设检验的步骤
- 提出零假设
- 建立检验统计量(test statistics)
- 确定否定域或计算p-value
- 得出结论
In [4]: from scipy import stats as ss
...: df=DataFrame({'data':[10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9]})
...: ss.ttest_1samp(a = df, popmean = 10)
...:
Out[4]: Ttest_1sampResult(statistic=array([ 0.65465367]), pvalue=array([ 0.52906417]))