本文旨在挑战:尽量用白话讲清楚“概率密度函数”?

介绍概率密度函数前,需要先根据下图理解一下“随机变量”这个概念。

beta分布概率密度函数_瑞利分布的概率密度函数_概率密度和分布函数的关系

Q1:概率密度函数是用来做什么的?

答:概率密度函数用是来描述连续型随机变量的取值 落在某个区间 的概率。

Q2:为什么是“落在某个区间的概率”,而不是某个取值的概率?

答:连续型随机变量落在任意一点的概率都是0(但并不是不可能的事情)。举例来说明,人的身高,几乎不可能准确的测量出来一个人的身高具体是多少。因为除了测量误差,标尺本身也不可能100%精准。

Q3:“落在某个区间的概率”和这个区间是开区间还是闭区间有关系吗?

答:没有关系。因为连续型随机变量落在任意一点的概率都是0。不管区间是开是闭,落在该区间的概率都是一样的。

Q4:连续型随机变量的概率密度函数怎么来计算呢?

答:连续型随机变量的概率密度函数是 连续型随机变量的累积概率分布函数的导数,即(F(x+Δx)-F(x))/Δx,当Δx趋近0时,能代表连续型随机变量 取值 趋近x的概率。连续型随机变量的取值落在某个区间的概率 为该区间对应的概率密度函数的定积分(即概率密度函数曲线与区间围成的面积;整个曲线和横坐标围成的面积为1)。

beta分布概率密度函数_瑞利分布的概率密度函数_概率密度和分布函数的关系

橙色面积代表,随机变量取值在(a,b)之间的概率

补充知识1:什么是导数?

答:差商的形式基本都和导数有关。比如速度是位移对时间的导数(速度=位移差Δs/时间差Δt),加速度是速度对时间的导数(加速度=速度差Δv/时间差Δt)。

补充知识2:累计分布函数

答:累积分布函数用来描述 随机变量取值不大于某值的概率,是概率密度函数的定积分。如下图,a点对应的函数值F(a)代表 随机变量取值不大于a的概率。

瑞利分布的概率密度函数_beta分布概率密度函数_概率密度和分布函数的关系

累计概率分布函数曲线图

Q5:为什么叫概率密度函数呢概率密度和分布函数的关系,密度一词的由来是什么呢?

答:对应物理上“某个点的密度”。物体的密度=质量/体积。那么物体上某一点的密度怎么算呢?直接算是算不出来的,需要用导数的概念来求。体积差Δv趋近0的时候,质量差ΔM /体积差Δv 就是该点的密度。体积差Δv是包含该点的体积元。对于一个物体来说,某个点的密度越大代表该点越重(要)。对应到概率密度函数,某值的概率密度越大,代表连续型随机变量取值在该值附近的概率越大。

——以上就是统计学中 灰常重要 的“概率密度函数”的介绍,理解了基础概念后,结合具体分布(如正态分布)就可以算出来具体的概率了。“纸上得来终觉浅,得知此事要躬行”,对统计学概念的理解需要“量变产生质变”,感觉自己理解的也不是特别特别的到位概率密度和分布函数的关系,后期还是要结合应用去深入理解,如有理解不对之处,请多指教。