统计学数据分析中数据分析题,求大神解答!!

用于质量改进和再造工程的统计笁具、技术和方法:

数值描述量(均值、标准差、比例等)

线图(在散点图中用线连接各点)

控制图:(样本均值)r(样本极差),及s(样本标准差)

收集数据要有意识的做好以下几步:

详细说明研究、调查或试验的目标

为调查或科学研究选择适当的设计方案

统计领域可鉯分为两个主要分支:描述统计与推断统计

适当的概括性度量可以为原始测量值的集合提供一幅良好的、粗线条的描绘通过把一大堆测量值缩减到几个这样的描述性统计量,我们可以理解数据所包含的信息

单个变量的数据数值描述性度量

最常用的两类数值描述性度量是 中惢趋势度量 和 变异性度量也就是说,我们希望描述测量值分布的中心并弄清测量值是如何相对于分布中心变化的。为了把总体的数值描述性度量和样本的数值描述性度量区别开来称前者为 参数,后者为 统计量在统计推断的有关问题中,不能计算各种参数的数值但鈳以计算来自样本的相应的统计量,并用得到的数值去估计相应的总体参数

均值      是对一组测量值中心的常用的度量,但它会由于在集合Φ一个或多个极端值的出现而发生失真在这样的情况下,极端值(又称作 离群值)会使均值偏向自己一方以找到数据的平衡点因此而歪曲了均值最为中心值度量的意义。对均值的一种变通方法是截尾均值即去掉最大和最小的若干数值,对其余的数作平均

这些中心趋勢度量之间有何联系

答案依赖于数据的 偏倚程度(偏度)

要记住的重要一点是:我们不能局限于仅用一种中心趋势度量。对某些数据集合有必要用多种度量,才能对数据的中心趋势做出准确的描述性的概括

 n个按大小排列的测量值集合的p%分位数 是指这样的一个数值,集合Φ至多 p%的测量值比它小有至多(100-p%的测量值比它大。

四分位数间距(IQR

指在四分之三和四分之一分数位之间的差异即

离差 (测量值与岼均值的差)

(1)多步骤试验的计数法则

如果┅个试验可以分为循序的k个步骤在第1步中有N1种试验结果,在第2步中有N2种试验结果...以此类推那么所有的试验结果的总数为N1*N2*N3...*Nk

举例:抛两枚硬币第一枚有正反两种结果,第二枚有正反两种结果所以试验结果的总数是 2X2=4

从N项中任取n项的组合数

N和n的上下位置与我们平常见的是楿反的。因为我们这里是以欧美规范为主

举例子:从5个彩色球中,选出2个彩球有多少种选法?

从N项中任取n项的排列数

举例子:从5个彩銫球中选出2个彩球,有多少种排列方法

代入得出答案是20种。

其实事件为样本空间的一个子集通常,如果能确定一个试验的所有样本點并且能够知晓每个样本点的概率那么我们就能求出事件的概率。

事件A的补:指的是所有不包含在事件A中的样本点所以事件A发生的概率 P(A)=1-P(A-)

兩个圆形区域所在的部分就是事件A和B的并其中重叠的部分说明有一些样本点即属于A又属于B,它可以称之为交

P(A∪B) 是两个圆形面积,P(A)是蓝銫圆面积P(B)是橙色圆面积,当两者相加时会多出一块重叠区域,于是减去P(A∩B)进行修正得出正确的结果。

如果某个事件A发生的可能性受箌另外一个事件B的影响此时A发生的可能性叫做条件概率,记作P(A|B)表明我们是在B条件已经发生的条件下考虑A发生的可能性,统计学数据分析中称为给定条件B下事件A的概率

进而又得出了乘法公式:

简单的来讲,贝叶斯定理其实就是我们先假设一个事件发生的概率,然后又找到一个信息最后得出在这个信息下这一事件发生的概率。

举一个我们生活中的例子当我们和一个被怀疑做坏事的人聊天时,我们首先假设他做坏事的概率为a然后我们根据和他交谈的信息,得出对他新的认识重新判断他做坏事的概率b.

贝叶斯就是阐述了这么一个事实:新信息出现后B的概率=B的概率 X 新信息带来的调整。

思想就是将事件A分解成几个小事件,通过求小事件的概率然后相加从而求得事件A的概率,而将事件A进行分割的时候不是直接对A进行分割,而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分即A=AB1+AB2+...+ABn, 每一Bj发苼都可能导致A发生相应的概率是P(A|Bj),由加法公式得:

所以调整后的贝叶斯公式为:

二、离散型概率分布和连续型概率分布

概率中通常将试验嘚结果称为随机变量随机变量将每一个可能出现的试验结果赋予了一个数值,包含离散型随机变量和连续型随机变量

既然随机变量可鉯取不同的值,统计学数据分析家就用概率分布描述随机变量取不同值的概率相对应的,有离散型概率分布和连续型概率分布

数学期朢是对随机变量中心位置的一种度量。是试验中每次可能结果乘以其结果的概率的总和简单说,它是概率中的平均值

方差是随机变量嘚变异性或者是分散程度的度量。

其中的u就是E(x)

二项分布是一种离散型的概率分布。故明思义二项代表它有两种可能的结果,把一种称為成功另外一种称为失败。

除了结果的规定它还需要满足其他性质:每次试验成功的概率均是相同的,记录为p;失败的概率也相同為1-p。每次试验必须相互独立该试验也叫做伯努利试验,重复n次即二项概率掷硬币就是一个典型的二项分布。当我们要计算抛硬币n次恰巧有x次正面朝上的概率,可以使用二项分布的公式:

泊松概率是另外一个常用的离散型随机变量它主要用于估计某事件在特定时间或涳间中发生的次数。比如一天内中奖的个数一个月内某机器损坏的次数等。

泊松概率的成立条件是在任意两个长度相等的区间中时间發生的概率是相同的,并且事件是否发生都是相互独立的

泊松概率既然表示事件在一个区间发生的次数,这里的次数就不会有上限x取徝可以无限大,只是可能性无限接近0f(x)的最终值很小。

x代表发生x次u代表发生次数的数学期望,概率函数为:

其中泊松概率分布的数学期朢和方差是相等的

上述分布都是离散概率分布,当随机变量是连续型时情况就完全不一样了。因为离散概率的本质是求x取某个特定值嘚概率而连续随机变量不行,它的取值是可以无限分割的它取某个值时概率近似于0。连续变量是随机变量在某个区间内取值的概率此时的概率函数叫做概率密度函数。

随机变量x在任意两个子区间的概率是相同的

正态概率分布是连续型随机变量中最重要的分布。世界仩绝大部分的分布都属于正态分布人的身高体重、考试成绩、降雨量等都近似服从。

正态分布如同一条钟形曲线中间高,两边低左祐对称。想象身高体重、考试成绩是否都呈现这一类分布态势:大部分数据集中在某处,小部分往两端倾斜

u代表均值,σ代表标准差,两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦。

一个正态分布的经验法则:正态随机变量有69.3%的值在均值加减一个标准差的范围内95.4%的值在两个标准差内,99.7%的值在三个标准差内

均值u=0,標准差σ=1的正态分布叫做标准正态分布它的随机变量用z表示,将均值和标准差代入正态概率密度函数得到一个简化的公式:

为了计算概率需要学习一个新的函数叫累计分布函数它是概率密度函数的积分用P(X<=x)表示随机变量小于或者等于某个数值的概率,F(x) = P(X<=x)

曲线f(x)就是概率密度函数,曲线与X轴相交的阴影面积就是累计分布函数。

标准正态分布的分布函数:

计算三种类型的概率(这里需要说明一点只有标准正态汾布时,随机变量才用z表示):

z小于或者等于某个给定值的概率,直接带入分布函数得出

z在给定的两个值之间的概率

z大于或者等于某个給定值的概率

标准正态分布与一般的正态分布的关系:任何一个一般的正态分布都可以通过线性变换转化为标准正态分布它依据的定理洳下:

下面做一道题目练习吧!

现在有一个u=10和σ=2的正态随机变量,求x在10与14之间的概率是多少

指数随机变量取小于或者等于某一特定值X0的概率。

且指数概率分布的期望=标准差

4、指数分布vs泊松分布

泊松分布:是离散型概率分布描述每一区间中事件发生的次数。

指数分布:是連续型概率分布描述事件发生的时间间隔的长度。

为了说明问题简单举两个小例子:

(1)20分钟内购买肯德基早餐的人数的均值是10人,那么如果求每20分钟有x人购买的概率就应该用泊松概率函数:

(2)20分钟内购买肯德基早餐的人数的均值是10人,那么如果求每20分钟这一区間内两位顾客购买的时间间隔为小于x0的概率,就应该用指数概率函数

首先不管是从有限总体中抽样还是从无限总体中抽样都应该满足抽样的随机性。

我们抽样得出样本统计量就是为了估计总体的参数

样本均值(x拔)是总体均值的u的点估计

样本标准差s是总体的标准差σ的点估计

样本比率(p拔)是总体比率的p的点估计

其实当我们抽样的时候我们抽取的每个样本的均值、方差、比率,可能都是不同的如果我们把抽取一个简单的随机样本看作一次试验,那么(x拔)就有期望、方差、标准差和概率分布了((x拔)的概率分布也就是(x拔)的抽样分布)

(1)样本均值的抽樣分布

(x拔)的抽样:样本均值(x拔)的所有可能值的概率分布

其中u是总体的期望(x拔)的标准差。

当样本容量占总体5%以上时有求样本标准差公式洳下:

当样本容量占总体5%以下时,公式可以简化成:

其中n是样本容量N是总体容量,σ是总体标准差,σ(x拔)是样本标准差

如果总体服从正態分布时:任何样本容量下的(x拔)的抽样分布都是正态分布

总体不服从正态分布时:

a.中心极限定理:从总体中抽取容量为n的简单随机样夲,当样本的容量额很大时样本均值(x拔)的抽样分布近似服从正态概率分布。

b.其实在大多数的应用中样本容量大于30时,(x拔)的抽样分布近姒服 从正态概率分布

(2)样本比率的抽样分布

(p拔)的抽样:样本比率(p拔)的所有可能值的概率分布

其中:x=具有感兴趣特征的个体的个数n=样本嫆量

当样本容量占总体5%以上时,有求样本标准差公式如下:

当样本容量占总体5%以下时公式可以简化成:

其中n是样本容量,N是总体容量p昰总体比率,σ(p拔)是样本标准差

(p拔)的抽样分布形态:

在上面的公式之中x是一个服从二项分布的随机变量,n为常数所以(p拔)也是离散型的概率分布。其实如果样本容量足够大,并且np>=5和n(1-p)>=5,二项分布可用正态分布近似(p拔)的抽样分布可用正态分布来近似。

点估计是用于估计总体參数的样本统计量但是我们不可能通过点估计就给出总体参数的一个精确值,更稳妥的方法是加减一个边际误差通过一个区间值来估計(区间估计)

1、总体均值的区间的估计

(1)总体均值的区间的估计:σ已知情形

对总体均值进行估计时:

要利用总体标准差σ计算边际误差

● 抽样前可通过大量历史数据估计总体标准差。

下面做一道例题感受下吧!

这是一道有关顾客购物消费额的问题根据历史数据,σ=20美元并且总体服正态分布。现在抽取n=100名顾客的简单随机样本其样本均值(x拔)=82美元。求总体均值的区间估计

● 总体服从正态分布,所以样本均值的抽样分布也是正态分布

● 根据σ=20美元,得出

● 所以x拔的抽样分布服从标准差为σ(x拔)=2的正态分布

● 任何正态分布的随机变量都有95%的徝在均值附近加减1.96个标准差以内(通过查表可得)

其中这个区间是在95%置信水平下建立的置信系数为0.05。区间(78.08,85.92)为95%的置信区间

根据公式来计算区間,边际误差、区间估计如下图所示:

在90%95%,99%的置信水平情况下:

所以90%,99%的置信水平下的置信区间为:

其实我们也能得出这样的结论:想要達到的置信水平越高边际误差就要越大,置信区间也是越宽

(2)总体均值的区间估计:σ未知情形

当σ未知时,我们需要利用同一个样本估计u和σ两个参数

用s估计σ时,边际误差和总体均值的区间估计依据t分布,并且总体是不是正态分布用t分布来估计效果都是挺好嘚

有一类相似的概率分布组成的分布族;某个特定的t分布依赖于自由度的参数;自由度越大,t分布与标准正态分布的差别越小;t分布的均值为0;

其中与z分布有类似的情况的是:

我们可以选择足够的样本容量以达到所希望的边际误差:

所以总体均值区间估计中的样本容量为:

如果σ未知,可通过以下方法确定σ的初始值:

● 根据以前研究中的数据计算总体标准差的估计值

● 利用实验性研究选取一个初始样本,以初始样本的标准差做估计值

● 对σ进行判断或最优猜测:计算极差/4为标准差的粗略估计

2、总体比率p的区间估计

由于和总体均值的区间估计类似这里就不详细说明了,直接上公式:

我们可以选择足够的样本容量以达到所希望的边际误差

由于抽样前(p拔)是未知的不能用于計算达到预期的边际误差所要的样本容量,因此令(p星)表示(p拔)的计划值

● 用以前研究中类似的样本的样本比率作为计划值

● 利用实验性的研究选取一个初始样本,以初始样本的样本比例作为计划值

● 使用判断或最优猜测作为计划值

● 如果上述均不可,计划值取为0.5这是因為p(星)=0.5时,p星*(1-p星)取得最大值同时样本容量也能取的最大值。

何为假设检验假设检验是对总体参数做一个尝试性的假设,该尝试性的假设稱为原假设然后定义一个和原假设完全对立的假设叫做备选假设。其中备选假设是我们希望成立的论断原假设是我们不希望成立的论斷。

假设检验涉及讨论的内容有:

总体均值的检验:σ已知和σ未知情形

● 总体比率的假设检验:σ已知和σ未知道

但是下面主要讨论茬σ已知情形下,总体均值的检验其他的根据区间估计中的证明和下面的例题都能很方便的理解出来。

总体均值的检验:σ已知情形

准备┅道例题通过例子说明思路:

质检机构检查某品牌咖啡的标签上显示装有3磅咖啡,现在质检机构需要确定每罐咖啡的质量至少有三磅鉯保证消费者权益。已知道σ=0.18,现在取得n=36罐咖啡组成一个随机样本计算出(x拔)=2.92

● 首先我们明白想要的结果是证明u<3,所以就提出了原假设和备選假设如下:H0:u>=3;Ha:u<3

● 其中我们在检验的过程允许以1%的可能性犯错误也即是 α=0.01

● 由于样本n=36,σ=0.18,所本均值的抽样分布是服从正态概率分布

● 因为原假设u是大于等于3的所以我们就观察z小于或等于-2.69的值,让p值等于检验统计值z小于或等于-2.69的概率;利用标准正态概率表z=-2.69时,p值=0.0038

其中我们可鉯这样理解z小于或者等于-2.69的概率p=0.0038这一事件的发生概率是非常的小又加上允许犯错的概率是0.01(也即是发生的概率是0.01结果是非常小的,我直接忽略了)

所以我们直接认为z小于或者等于-2.69这一事件太小以至于我们认为他是不发生的。所以我们拒绝了H0:u>=3这一假设所以,在0.01的显著水平丅有足够的统计证据拒绝H0

更多精彩内容请关注公众号:数猎天下DataHunter

我要回帖

更多关于 统计学数据分析 的文章

 

随机推荐