![深度学习原理与应用](https://wfqqreader-1252317822.image.myqcloud.com/cover/232/37669232/b_37669232.jpg)
2.3 概率统计
2.3.1 随机事件
自然界的各种现象,按其发生的结果,可以分成确定性(或偶然)现象和随机(或必然)现象两类。确定性现象是指在一定条件下必然发生的现象,只要保持条件不变,任何人重复实验或观察,该现象的结果总是确定的。随机现象是指在一定条件下,可能发生也可能不发生的现象。不论何种现象,对其所进行的观察、实验统称为试验(experiment)。
随机现象的试验特征是:
• 在一定条件下,其试验的可能结果不止一个;
• 一次试验中,可能出现某一结果,也可能出现另一个结果,事先无法预知;
• 就一次试验而言,其结果表现出偶然性,但在大量重复试验下,其试验结果呈现出某种规律性。
随机现象的这种隐蔽的内在规律性叫做统计规律性。要获得统计规律性,必须在相同的条件下,大量重复地做试验,这类试验称随机试验(random experiment),有时简称试验。随机试验具有三个特性:
• 试验可以在相同的条件下重复进行;
• 每次试验的可能结果不止一个,究竟会出现哪一个结果,试验前不能准确预言;
• 试验所有的可能结果在试验前是明确(已知)的,而每次试验必有其中的一个结果出现,而且仅有一个结果出现。
试验的每一个可能的结果称为一个基本事件(basic event)。全体结果所构成的集合称为随机试验的样本空间(sample space),记为Ω。样本空间中的元素称为样本点(sample points)。
样本空间的子集称为随机事件(random event),简称事件。
事件A的对立事件或补集是指Ω中不在A中元素组成的集合,记为,
=Ω−A。
事件A和B的并(或和)记为A∪ B,是指事件A和事件B中至少有一个发生的集合。
事件A和B的积(或交)记为A∩B或AB,是指事件A和事件B同时发生的集合。
事件A和B的差记为A-B,是指事件A发生而事件B不发生的集合。
由差事件和对立事件的定义可以得到下列结论:A−B=。
事件的运算满足以下规则:
交换律:AB=B
A, AB=BA
结合律:(A∪B)∪C=A∪ (B∪ C)
(AB)C=A(BC)
分配律:(A∪B)∩C=AC∪BC
(A∩B)∪C=(A∪C)∩(B∪ C)
德·摩根(De Morgan)律(对偶原则):
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-37-6.jpg?sign=1739262930-iUTsEk4scXEhx5ivDuqmBC7S3FRLxbot-0-f5cd30be8725b921a613b168c7156cc1)
2.3.2 概率的定义
随机事件A发生的可能性大小的度量称为A发生的概率,记作P(A)。
概率P是定义在样本空间Ω上的实数函数,满足如下性质:
非负性:对于任一事件A,0≤P(A)≤1;
规范性:P(Ω)=1;
可列加性:对于样本空间中的任意不相交的事件A1, A2, …, An:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-38-1.jpg?sign=1739262930-67B3gwobR4kJsdKzsOvfLOM5ReW0oXyz-0-ff32dd36adefca4457dfdbe8c9be6477)
不可能事件的概率为0,即P(Φ)=0。
如果事件之间存在相交,计算其概率就需要用到加法公式:
P(A∪B)=P(A)+P(B)−P(A∪B)
特殊地:P(A)+P()=1
还可以导出:P(A−B)=P(A)−P(A∩B)
2.3.3 条件概率和贝叶斯公式
条件概率(两个事件先后发生):已知事件A发生条件下,事件B发生的概率为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-38-3.jpg?sign=1739262930-MnhaJ6Y6a0qKDigon8ncsD1PUQSSkMD2-0-167cea91fe5bec2228edefc25f27468c)
乘法公式(两个事件同时发生):P(A∩B)=P(A)P(B|A)
全概率公式(样本空间某种划分下的概率):如果事件B1, B2, …, Bn构成样本空间Ω的一种划分,且P(Bi)>0, i=1, 2, …, n,则对于样本空间Ω中的任一事件A,有:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-38-4.jpg?sign=1739262930-124FFMfSsEDumtnZ00KgZMCgjrWIO4cY-0-9f8c6e17ef44e7cc997112ced3f0cc21)
样本空间划分是把所有可能情况都列全,而且不同情况之间没有交叉重叠,即:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-38-5.jpg?sign=1739262930-KS13ManKX6yKqTH3OjbV1bY2yCGerYkS-0-bcecd332b8b12558a32d586a1b5b83b1)
贝叶斯公式(事件发生后分析各种诱因):事件B1, B2, …, Bn是样本空间Ω的一种划分,对于Ω中的任一事件A,如果满足P(A)>0,有:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-38-6.jpg?sign=1739262930-GQhAnP8DOBBJXGiIFkNtdAsYjHt1vZ8s-0-aee26749c4266fc9a8728f4f61802d37)
其中,k=1, 2, …, n。
当事件A已经发生后,贝叶斯公式可以用来寻找分析导致事件发生的原因。把样本空间Ω看作事件A发生的各种原因组成的空间,B1, B2, …, Bn表示各种原因,概率P(A|Bk)表示事件Bk导致事件A发生的概率,P(Bk)是原因Bk发生的概率,一般是根据以往的积累数据或经验得出的,是先于试验就得到的概率,所以称先验概率。相应地,通过试验得到的概率称后验概率。因此,贝叶斯公式是由“结果”求“原因”的。
2.3.4 常用概率模型
1. 古典概型
若试验具有以下两个特征:
1)有限性。试验的样本空间Ω是有限集,即
Ω={ω1, ω2, …, ωn}
2)等可能性。每个样本点(即基本事件)发生的可能性都相等,即
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-39-1.jpg?sign=1739262930-cVZnF55iLklsvs6Idb53nmto9e6sUzP0-0-661e8d3bf7a2b5a820dd606d7d25655f)
则称此试验为古典概型试验,简称古典概型(classical probability model)。
设古典概型试验E的样本空间Ω有n个样本点,若事件A包含其中的m个样本点,m≤n,则事件A的概率为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-39-2.jpg?sign=1739262930-cioUjp8HRwheZ1Evvooad0SHKhxmw5bS-0-fa74a6c8f738b28838e98c2efa306630)
古典概型样本点计算中经常用到排列和组合公式。
不重复排列公式:从n个元素中任取m个元素,m≤n,按照一定的顺序排成一列,其排列数为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-39-3.jpg?sign=1739262930-rVy8ta5xe3iwMKGk37ujXdBTiUd6fXnd-0-667ab4643ba814770632ed10907a6f6e)
可重复排列公式:从n个不同元素中有放回地抽取m个元素按照一定的顺序排成一列,m≤n,其排列数为:
nm
圆排列:将n个元素环形排列,仅区分元素之间的相对位置,这种排列法称为圆排列,其排列数为:(n−1)!。
组合公式:从n个不同元素中取出m个元素,不计顺序组成一组,其组合数为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-39-4.jpg?sign=1739262930-A8auLGzXhgH66oyljAFIEkmw8Wx5yp6H-0-89d340afe3c90968277c91e94007a708)
加法原理:如果完成一件工作有m个不同的方法,其中任何一个方法都可以一次完成这件工作。假设第i个方法有ni(i=1, 2, …, m)个方案,则完成该件工作的全部方案有n1+n2+…+nm个。
乘法原理:如果一件工作先后需m个步骤才能完成,其中第i个步骤有ni(i=1, 2, …, m)个方案,则完成该项工作的方案有n1n2…nm个。
2. 几何概型
古典概型的试验结果是有限多个,几何概型的试验结果为无穷多个。几何概型是指具有下列两个特征的随机试验:
1)有限区间,无限样本点:试验的所有可能结果为无穷多个样本点,但其样本空间Ω表现为直线、平面或三维空间中具有几何度量的有限区域;
2)等可能性:试验中每个基本事件出现的可能性相同,且任意两个基本事件不可能同时发生。
在几何概型中,设样本空间为Ω,事件A⊂Ω,则事件A发生的概率为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-40-1.jpg?sign=1739262930-Ea4Mkh9kZzwVGPrr7fDIKK6XPeGhqeZO-0-3f39d16128a19d016bd56327f41ce15e)
3. 伯努利概型
如果一个试验只有成功(A)和失败()两种可能的结果,每次试验成功的概率是一个常数P(A)=p。重复n次试验构成一个过程,这个过程称为伯努利过程,每次试验称为伯努利试验,或伯努利概型。
在n次伯努利试验中,事件A出现k次的概率为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-40-2.jpg?sign=1739262930-ZEJT2fTnBcu7w1W4pwynC9zAC1ySNmhQ-0-3d1ff4e205d7519dfc39f107ef22a0fb)
2.3.5 随机变量与概率分布
为了将随机事件进行量化,需要引入随机变量。
设E是随机试验,其样本空间为Ω={ω},如果对于每一个样本点ω∈Ω,都有唯一确定的实数ξ(ω)与之对应,则称实值函数ξ(ω)为一个随机变量,常用大写字母X、Y、Z表示。由此,随机事件不论与数量是否直接有关,都可以用数量化的方式表达。
如果随机变量X只可能取有限个或至多可列个值,则称X为离散型随机变量。取值为0或1的特殊随机变量称为伯努利随机变量。
对于随机变量X,若存在一个定义在(−∞, ∞)内的非负实值函数f(x),使得对于任意实数x,总有
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-40-3.jpg?sign=1739262930-K2soxnB4lIcciP9d3VH6zW7KZrk4DPL3-0-5654c2f6e5996c45e5b2752a78e291e9)
则称X为连续型随机变量。
设离散型随机变量X所有可能的取值为:{x1, x2, …, xn, …},每个值都有一个相应的概率P(X=xk)=pk(k=1, 2, …),称为随机变量X的分布列,或称概率函数。
离散型随机变量的分布列满足:
1)
2)pk≥0, k=1, 2, …。
X的分布函数为:
连续型随机变量定义中的f(x)称为概率密度函数,简称密度函数。连续随机变量在其任一点取值的概率均为0,对这个函数的积分可以得到X在a和b之间的概率值:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-40-6.jpg?sign=1739262930-VpgZorsY6Or2RpGCzk4yzT84R5g5RCKM-0-3a93718cffcefdadab357908692eba33)
或
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-40-7.jpg?sign=1739262930-A9AK1hqVWhgeNHlLenuPGZqCvqLvI4tv-0-edfc6fb179bff709f27670c2d5f82375)
F(x)称为X的分布函数。
因为表示的是概率值,所以,概率密度函数需要满足:
① f(x)≥0;
②
注意:离散随机变量有概率函数,连续随机变量只有概率密度函数,概率是由面积表示的,即是由概率密度函数积分得到的。进一步,连续随机变量可以用曲线表示,但是,曲线上的点的高度表示的不是概率值!
如果事件的发生涉及多个随机变量,需要引入联合概率分布。
离散型随机变量X和Y的联合概率分布为:P(X=xi, Y=yj)=pij, i, j=1, 2, …:
① pij≥0, i, j=1, 2, …;
②
连续型随机变量X和Y的联合密度函数f(x, y):
① 对于所有(x, y), f(x, y)≥0;
②
③ 对于xy平面上的任意区域S,P[(X, Y)∈S]=∫∫Sf(x, y)dxdy。
2.3.6 随机变量的数字特征
1. 均值(期望值)
如果X是离散的,X的均值或期望值是:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-41-4.jpg?sign=1739262930-rTvDPjgi97rF4aabvgx89yQqvvCJweMC-0-65fe9f9ca98ece27030e27942a7ca5e5)
如果X是连续的,X的均值或期望值是:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-41-5.jpg?sign=1739262930-WPDFknP9WI9LH1yKgdpo53sl3udaeUUN-0-213f439cbde96803a58292aeaa90e823)
2. 方差
随机变量X的均值或期望值描述了概率分布的中心位于何处,方差用来描述随机变量偏离中心的程度。之所以不用标准差而用平方差,是为了避免出现正负误差相互抵消的情况。
如果X是离散的,那么其方差为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-41-6.jpg?sign=1739262930-e4x0FGsK8YLf2ctPllFB1uT5XwowQjMc-0-1241810e7c5f9ce7271ef8475c5d1791)
如果X是连续的,那么其方差为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-41-7.jpg?sign=1739262930-7ek8JSJF67IbqwYsdf9V2iunqR72HrFb-0-ef6e6e7ca2aaf5a5dbdcba8470701fca)
x−µ称为观测值对均值的离差。
随机变量X求方差的简便计算公式:
σ2=E(x2)-μ2
3. 协方差
对于多个随机变量,用协方差来分析它们之间的相互影响程度。比如有两个随机变量X、Y,其组合(X, Y)就组成了一个二维随机变量。这个二维随机变量的方差就是协方差。
如果X和Y是离散的,那么其协方差为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-42-1.jpg?sign=1739262930-JCDWdtiItNuYT5hoAg5GJbNvfDhbgzgA-0-87d87ca9abf864b0c9a7f58f77e6209b)
如果X和Y是连续的,那么其协方差为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-42-2.jpg?sign=1739262930-Cikg9OAen7yqPqN6wFLX0ABS9rM9TxbI-0-1bca9a3e4f2c9cf48aebeda3532b553f)
均值分别为µX和µY的两个随机变量X、Y的协方差可以用下列公式计算:
Cov(X, Y)=E(XY)−µXµY
两个随机变量X、Y之间的相互影响关系有如图2-4所示的正相关、负相关和不相关三种关系。
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-42-3.jpg?sign=1739262930-dTsRrGU5wgooUWvvsrAbPi41SwofuQwX-0-f6b08931a02323755c99e0fe0438227b)
图2-4 协方差表示的变量相关关系
当X越大,Y也越大,X越小,Y也越小时,称为正相关,此时:Cov(X, Y)>0。
当X越大,Y反而越小,X越小,Y反而越大时,称为负相关,此时:Cov(X, Y)<0。
当X的变化不会引起Y任何变化时,称为不相关,此时:Cov(X, Y)=0。
如果还需要度量两个随机变量X、Y之间的关系,可以用相关系数:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-42-4.jpg?sign=1739262930-9jsJQetJgHdJR3aY0JHRNvPXPiGwLDHN-0-140410da47c327e9c8b033a4a87095ad)
2.3.7 典型的概率分布
1. 二项分布
n次伯努利试验的成功次数X称为二项随机变量。这个离散随机变量的概率分布称为二项分布,即:
如果一个伯努利试验成功的概率是p,把n次独立试验中的成功次数作为二项随机变量X,其概率分布为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-43-1.jpg?sign=1739262930-hDWcWfl3hRGV9WHohoFQEnWXSMPm3XmA-0-bf5c71f8855394c53659a49a34260942)
二项分布的概率计算方法如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-43-2.jpg?sign=1739262930-0Xu7S635mQ3SDbEozjCeyJ24nxcoDBRG-0-70d3b788c28ad091241094d6c80b7d4d)
二项分布的均值和方差为:
µ=np, σ2=npq
2. 多项式分布
如果每次试验可能的结果多于两种,二项试验就变成多项式试验了。
多项式分布 如果给定的试验有k种可能结果E1, E2, …, Ek,对应的概率分别为p1, p2, …, pk,随机变量X1, X2, …, Xk分别表示在n次独立试验中结果E1, E2, …, Ek出现的次数,则X1, X2, …, Xk的概率分布为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-43-3.jpg?sign=1739262930-TkOKKNUzFO2DjnlfV2LAOUUnW2NRj4Eq-0-610d12aeeb93bde1ed90d36d285fd3ff)
其中,
3. 超几何分布
二项分布要求试验是独立的,即抽样后取出的样本在下次试验前必须放回。超几何分布不要求试验相互独立,即是基于不放回抽样的。
超几何分布 总数为N的对象中,有k件被标记为成功,N-k件被标记为失败,随机选取n个对象作为样品,超几何随机变量X表示选中标记为成功对象的数目,它的概率分布为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-43-5.jpg?sign=1739262930-DpCn6YOEYz8QkAcjWXU931gmpXwAAVs7-0-7d5173f3c55562aad9f95e819900e728)
超几何分布h(x;N, n, k)的均值和方差为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-43-6.jpg?sign=1739262930-oXH42NcYUbQi6AzqP65wUekrRIgTQ02V-0-b4229b01e20a907083018660f745c276)
4. 负二项分布和几何分布
对于二项试验,如果不是按试验次数n去求有x次成功的概率,而是按成功次数k去求试验次数x的概率,这类试验称为负二项试验。
做X次试验成功了k次,X被称为负二项随机变量,它的概率分布称为负二项分布。
负二项分布 如果重复的独立试验成功的概率为p,以X表示出现k次此成功结果所用的试验次数,此随机变量的概率分布为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-44-1.jpg?sign=1739262930-8WcIxYeaBTWDHP5nq8x0wgJX7azy5kEb-0-e68376f4d727d25292248e7318fe1425)
几何分布在伯努利试验中,试验进行到第X次才第一次成功,随机变量X的概率分布为:
g(x;p)=p(1−p)x−1, x=1, 2, 3, …
由此可见,几何分布就是k=1时的负二项分布。
服从几何分布的随机变量的均值和方差为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-44-2.jpg?sign=1739262930-BOsTv35NOcArcjAYTb9ekoQqPJxa14Ix-0-c0ef93676e9772f96566b695489c49ba)
5. 泊松分布
泊松分布适合于描述单位度量区间内随机事件发生的次数,而且是小概率事件。单位度量区间包括单位时间区间、单位长度、单位面积、单位体积等。
泊松分布适用的事件有以下特点:
① 这个事件是一个小概率事件;
② 事件的每次发生是独立的,不会相互影响;
③ 事件的概率是稳定的。
泊松分布 X表示在给定的时间间隔或指定区域t内结果的发生数量,则泊松随机变量X的概率分布为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-44-3.jpg?sign=1739262930-dbTcHFyJSUgONKVqGyWQnhwoKfxHG3eR-0-bfcc3e585e71e0de3dd35feffed23e3e)
其中,λ表示在单位度量区间内得到结果的平均数量,e为欧拉常数。
当二项分布的n很大而p很小时,且λ=np大小适中时,泊松分布可作为二项分布的近似公式。
6. 指数分布
指数分布是描述泊松过程中事件之间的时间概率分布。指数分布X的密度函数为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-44-4.jpg?sign=1739262930-MW6p91U86MoxFJ8SDdbOpgIsP9tdBKl0-0-dd858106e924ad6d863a60e6efbaf87e)
其中λ>0是分布的一个参数,常被称为率参数(rate parameter),即每单位时间内发生某事件的次数。
其分布函数为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-44-5.jpg?sign=1739262930-hssYD5Ox9QiurdPTAqK9hRJdx9O39Jn6-0-5c86f128dda5e4f37d90b46ebaebaeaa)
7. 均匀分布
在任何情况下概率都是一样的分布称为均匀分布。均匀分布是用一个“平坦的”密度函数描述的,因此在闭区间[A,B]上的概率是均匀的。
均匀分布 在区间[A,B]上的连续均匀分布随机变量X的密度函数为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-45-1.jpg?sign=1739262930-RlvlcTV2Xi985AE9L3iD8rzhHycMeULm-0-7d01b8a907a79f366f15ae6dacf0b536)
均匀分布的均值和方差是:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-45-2.jpg?sign=1739262930-8W1QTbfCj3CDaGLfakidz5WSaGnQuLqn-0-da3451509fbdecf74cc485389c43153d)
8. 高斯分布(正态分布)
如果某个现象的发生是由大量偶然因素相互作用的结果,通常使用正态分布来描述。“正态normal”的含义是指不是因为某种特定原因,而是多种偶然因素造成的事件发生。或者说,正态分布的原因“绝大部分是普通,极少数是特殊”。
正态分布的曲线是非常漂亮的对称钟形曲线,其形状由两个参数完全决定:均值μ和标准差σ。经验表明,一些物理量和科学测量的误差均符合正态分布。
正态分布 均值为μ,方差为σ2的正态随机变量X的密度为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-45-3.jpg?sign=1739262930-CZXDiwur7GtOYyE6xm0LlGt8nQrBvpLv-0-ec811f5bffda8c5f1494e003a41b9390)
均值μ=0,标准差σ=1的正态随机变量的分布称为标准正态分布n(x;0,1)。
正态分布的分布函数为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-45-4.jpg?sign=1739262930-qq1MXq7XOIRXtJ90Sc2ojm9GEkKggRMD-0-f1db0a8d0db6af47640e29e3a280c40b)
其概率值为(正态曲线下的面积):
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-45-5.jpg?sign=1739262930-n8VSSJSRJxIHlc5sDfJzhgq2qNxG1LXE-0-a21e12e190ccf913eed0e18720bc281d)
9. 伽玛分布
正态分布解决了很多工程和科学上的问题,但有些情况下还需要其他类型的分布。指数分布和伽玛分布在排队论和可靠性问题中发挥了重要作用。
到达服务设施的时间间隔、部件和系统的失效时间等,通常用指数分布来建立模型。指数分布是伽玛分布的特例。
伽玛分布得名于著名的伽玛函数:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-45-6.jpg?sign=1739262930-qibWLtYaTYhpnyw6QxwhDGRQrcDvaq7F-0-8e51c10c4357f1d8f8a79d2f55bbb3ef)
伽玛函数的性质:
① Γ(n)=(n−1)(n−2)…(1)Γ(1),其中n为正整数;
② Γ(n)=(n−1)其中n为正整数;
③ Γ(1)=1;
④
伽玛分布 连续随机变量X服从参数为α和β的伽玛分布,若它的密度函数为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-46-2.jpg?sign=1739262930-9N3x9jHxUnBNEUaciWSpNbAa6ikLQyFe-0-eaa3f58c11715029b8be43b8ff7ee28e)
其中,α>0, β>0。
伽玛分布的均值和方差为:μ=αβ, σ2=αβ2。
10. 卡方分布
卡方分布主要用来评估实际结果与期望结果之间的差异是否异常,包括检验拟合优度,即检验一组给定数据与指定分布的吻合程度,以及检验两个变量的独立性。
若n个相互独立的随机变量ξ1, ξ2, …, ξn均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一个新的随机变量,其分布规律称为卡方分布。
在伽玛分布中,令, β=2, v为正整数,就可得到卡方分布。因此,卡方分布是伽马分布的另一个特例,该分布仅有一个参数v,称为自由度。
卡方分布的密度函数为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-46-4.jpg?sign=1739262930-bbeRTN2Xjnq37gmjXhCdDIL5ulHCMESy-0-df49d2404be6c2bd0f7c8f6e27fe63d8)
2.3.8 统计与概率
统计与概率如同“一对亲兄弟”。老大“概率”天资聪慧,喜欢使用自己的天赋与知识对未来事件进行预测;老二“统计”踏实肯干,只顾埋头收集数据,从数据中发现隐藏的规律。因此,概率使用的是推理方法,而统计使用的则是归纳方法。
如图2-5所示,统计推断运用概率论中的基本概念,基于样本数据进行统计推断,得出涵盖总体的结论;概率论是根据总体的已知特征,对样本数据做出判别。
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-46-5.jpg?sign=1739262930-cq4yuhcjuVNIYweh3jlafY0quxItiF9v-0-521dec954e772b2a577a04f9d9375dc6)
图2-5 概率与统计的关系
2.3.9 样本与总体
数据是统计学的基础。在统计学中,数据分成样本和总体两类。总体是指一个试验中所有可能的观察值,样本是从总体中抽取的一部分观测值。
抽取样本的过程称为抽样。抽样的准确与否,直接决定了分析结果的准确性。如果是小概率事件的样本十分稀少,抽样更加困难。
从总体X中随机抽取一部分个体X1, X2, …, Xn,称(X1, X2, …, Xn)为取自总体X的容量为n的样本。若X1, X2, …, Xn相互独立,且具有相同的概率分布(每个观察值被抽取的概率相等),那么称(X1, X2, …, Xn)为随机样本,n为样本容量。
2.3.10 统计量与抽样分布
统计量是随机样本的一个函数,如果样本容量是n,它就是n个随机变量的函数。
统计量是一个仅依赖于样本的随机变量,因此也有概率分布。一个统计量的概率分布称为抽样分布。一个统计量的抽样分布依赖于总体大小、样本容量和选择样本的方法。
与概率分布一样,抽样分布也有描述其分布情况的数字特征,唯一的区别是抽样分布的数字特征受随机样本的观测值影响,而概率分布的数字特征是恒定的总体参数。
常用的统计量包括:
1. 样本均值
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-47-1.jpg?sign=1739262930-81Ef1ZGry3VkxTVcAGA0PocBBugBts7l-0-291abed7a67b2d12fd1f4556be54ef87)
2. 样本方差
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-47-2.jpg?sign=1739262930-BMM4PU4UWf0wTkEaWe965TSNQEHBwT5o-0-333f1ea3c0d155bb2d4914474caf50ce)
图2-6是概率与统计在数字特征方面的区别与联系。
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-47-3.jpg?sign=1739262930-vtrawq3xUWYHI2uegzVOOoev8NZxApVm-0-3c94a51a211e3ba063b1da8fbeb7660b)
图2-6 总体与样本的关系
均值的抽样分布:当样本容量足够大时,样本均值的抽样分布近似于一个均值为μ,方差为
的正态分布!这个结论就是中心极限定理。
2.3.11 参数估计
参数估计是运用样本数据对总体的某些数字特征,如数学期望、方差等参数做出估计。
点估计是利用样本数据计算得出关于总体数字特征的一个估计值。常用的点估计有矩估计和最大似然估计。最大似然估计适用范围较广泛。
如果已知总体分布,但其参数未知,想借助样本值来估计出未知参数,可使用最大似然估计。因此,最大似然估计适用于“模型已定,参数未知”的情况。
设X的概率密度函数f(x; θ1, …, θk)为已知,而θ1, …, θk为未知参数,X1, X2, …, Xn是从总体X中抽取的样本,x1, x2, …, xn是样本值,则称:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-48-1.jpg?sign=1739262930-fQNEXhMwGtQFjQqCI7Y7irfRklwQKJ5w-0-b99d1cc10473ae683b4aec1a79637827)
为样本的似然函数。使似然函数L达到最大值的, …,
称为θ1, …, θk的最大似然估计。
若L关于参数,可微,一般使用似然方程组或对数似然方程组来求最大似然估计
, …,
:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-48-6.jpg?sign=1739262930-Cdfw0C6iwrdnwnfWfwlk5Xlmv3I5DCfY-0-26b4d99b052fc34a492bbec36e6725d3)
或
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-48-7.jpg?sign=1739262930-8mCRm68e0hiet34zVSiK2YEzIHCQuYZL-0-54a398548e1129722bcbf38461e4f2d1)
区间估计利用样本值确定总体参数所在的区间,并以一定的概率保证总体参数不会超出这个区间。
图2-7给出了参数估计形象的思考方法。
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-48-8.jpg?sign=1739262930-GRahR11iu0SFX9HcJ7JNErgwdeGIZ9dp-0-a30e711d473388ec2c7654a75ffe4eb5)
图2-7 参数估计思考方式