许可优化
许可优化
产品
产品
解决方案
解决方案
服务支持
服务支持
关于
关于
软件库
当前位置:服务支持 >  软件文章 >  统计学元知识:从基础到全面掌握

统计学元知识:从基础到全面掌握

阅读数 6
点赞 0
article_banner

1.什么是统计学


    原始理解:通过样本去估计总体,无论是点/区间估计、假设检验、方差分析还是线性回归。
   

样本 → 总体


    课本定义:
   


    ①一门 收集分析、表述和解释数据的科学。
   


    ②一组方法,用来设计实验、获得数据,然后在数据的基础上组织、概括、演示、分析、解释和得出结论。
   

2.概率论和统计学的关系

3.为什么要用统计学

总体数据相对比较难获取,有时候也没有必要获取。


    ①统计分析是数据到结论的必经之路,大数据亦需要抽样( ETL???)
   


    ②统计是统计学习的基础,如KNN、朴素贝叶斯、决策树。
   


4.大数据时代,统计学的意义在哪儿?


    〇提供相关性的依据??
   


    ①提供数据挖掘方法的理论支撑
   


    ②提供从数据到规律的路径
   


    ③提供数据处理的理论支撑(描述统计的统计)
   


    ④大数据不一定等于总体(时间),样本估计总体还用的上。
   

https://www.zhihu.com/question/20593064/answer/26200327
   

https://www.zhihu.com/people/primes/answers
   

5.基础概念一览


类型统计量
基本统计量均值、中位数、众数、百分位数、极值等
其他描述性统计量偏度、方差、标准差、显著性等
其他统计知识总体和样本、参数和统计量、ErrorBar
概率分布与假设检验各种分布、假设检验流程
其他概率论知识条件概率、贝叶斯



抽样分布oneall
t分布小样本的均值分布
卡方分布符合正太分布统计量的平方和卡方检验:独立性、拟合优度
F分布两个卡方分布均值的比值同质性检验||多因素方差分析,组间/组内






理论分布oneall
自然分布自然啊X-μ/σ(扶正)
二项分布事件结果只有成功/失败 感情趣的是成功X次的概率是多少
泊松分布事件独立 任意相同时间范围,事件发生概率相同 想知道的是某个时间范围内,发生X次的概率假设服从,进行卡方检验
几何分布感兴趣的是第N次会成功的概率前X-1次失败,第X次成功得概率
超几何分布N种有M类,取n个,会有k个类的概率。 不放回抽样


基础概念oneall
统计学描述统计和推理统计数据的收集整理,总体估计和检验
描述统计统计数据的收集整理、显示和分析箱线图、频数分布、列联表 tag
均值算术、几何、均方根、调和平均值
偏差和均值之差的和的均值((x-μ)+...+(xn-un))/n无法正确反映和均值的离散程度,正负抵消
方差和均值之差的平方和的均值离散程度、但是程度扩大,因为进行了平方操作
标准差和均值之差的平方和的开方的均值离散程度最为准确
正态分布自然分布Z分布,±1.96
中心极限定理当样本或者实验次数接近无穷,其分布近似正态分布均值为样本均值μ 方差为(σ^2)/n,σ为样本方差
推理统计总体估计和检验就是描述统计+概率论。均值、方差加上
估计通过样本统计量估计总体参数
评价估计量的标准无偏性、有效性、一致性(分布往参数靠)无偏:估计量的期望=参数 有效性:期望分布的方差,不同估计量 一致性:期望分布的方差,不同样本量
点估计利用样本均值、方差估计总体均值方差极大似然估计、最小二乘估计?
区间估计点估计 + 分布大样本的Z分布Z=(X-μ )/ σ(s)/√N 小样本的t分布t = (X-μ )/S/√(N-1) 为求方差构造的卡方分布量:(n-1)S2/σ2 ∵(x-μ)/σ服从正太分布(即转标准正态分布) 其平方和服从卡方分布。结果就是S2*(n-1)/σ2 服从卡方分布 ∴构造的统计量服从正太分布
Z分布正态分布、自然分布±1.96,大样本、小样本(方差已知)
t分布小样本的均值分布只为小样本
卡方分布符合正态分布的统计量平方和服从卡方检验:独立性、拟合优度(观察值、预期)
F分布符合卡方检验得变量比值方差分析(单因素、有无交互作用)、单尾检验
统计独立性过程互不影响统计独立必不相关
统计相关性过程相互影响
假设检验给个假设 验证假设 结论(拒绝原假设、无法拒绝原假设)方差分析,假设均值都相等(无显著变化)。
独立性检验卡方检验的一种,通过样本求出独立比例的期望值。 检验观察值和期望值是否服从同一分布
方差分析多个总体的两辆检验,t检验不好用了 方差分析,可以给你维持原显著水平的一次性检验齐性检验 单因素 双因素 有交互作用




Q&A:


    1.探索性分析
   


    2.验证性和探索性因子分析
   


    3.卡方检验的要求
   


    4. ETL是什么东东,为什么需要抽样?

卡方检验的样本量要求

卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。


自说自话(bajibaji)


    0.正态分布,线性变换n倍后的均值和n个独立变量的均值(x→nx+b  nE(x)、a2σ)(nE(x)、nσ2)
   


    1.两个正态总体的叠加,结果还是正态分布。(其变量相互独立)
   


    2.F分布的应用,方差分析、两个总体方差的比值
   


    3.拟合优度检验是什么?卡方检验的一种,单因素拟合检验。双因素列联表分析。
   


    3.5列联表分析和方差分析有何不同?方差分析????
   


    4.回归分析,若样本比较小呢,需要进行非不相关t检验,若多元,F检验
   


    5.泊松分布,离散分布,极限是正态分布
   


    6.可以用正态分布近似二项分布,当N足够大的时候。(np>10,nq>10)
   


    7.泊松分布亦同。
   


    8.大数据往往意味着有大偏差
   


    9.样本随机抽取很重要
   


    10抽样误差
   


    11.非抽样误差、不回应误差、响应误差
   


    12.效度:实际关联 信度:真实,可重复
   


    13.大数据也要抽样啊,ETL啥的
   


    14.均值&中位数,均衡量数据的中间水平,但差别可能较大。
   


    15可视化工具power python spss stata minitab  excel
   


    16.时间序列预测:ARIMA模型、自回归积分滑动平均模型
   


    17.齐性检验、(有)无交互ANOVA
   


    18分类数据种的成对数据,可以通过系统差异和个体差异来衡量数据具体的变化RP\RV(SVENSSON METHOD)
   


    19.贝叶斯公式、先验和后验概率的转换
   

免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删


相关文章
技术文档
QR Code
微信扫一扫,欢迎咨询~
customer

online

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 board-phone 155-2731-8020
close1
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

姓名不为空

姓名不为空
手机不正确

手机不正确

手机不正确
公司不为空

公司不为空

公司不为空