用于分配随机值的分布法

下面介绍了可供多种创建随机值的工具使用的分布法。这些分布法可将基于指定数据流(在分析环境中全局标识或在工具中局部标识)所创建的随机值 0–1 转化为指定的分布状态。有关每种分布法的语法及参数信息,请参阅随机值的分布语法

均匀分布

均匀分布是一种连续型概率分布,在这种分布状态下,指定区间内的所有值都具有相同的概率。整数分布是离散形式的均匀分布(请见下文)。在模拟模型中对气体浓度建模时、对某十字路口发生交通事故的时间间隔建模时,以及使用“创建随机点”工具放置随机点时都可以使用均匀分布。

均匀分布通常用于对每个可能结果或事件发生概率都相等的随机事件建模。

均匀分布
均匀分布

均匀分布的公式如下:

均匀分布公式
均匀分布公式

其中

a 是等概率区间的最小值。

b 是等概率区间的最大值。

x 为观测值。

所选的随机值介于最小值和最大值之间(不包括最大值和最小值)。最小值必须小于最大值。如果未提供最小值和最大值,则会生成 0.0 与 1.0 之间的均匀变量。

整数分布

整数分布是指定区间内所有离散值都具有相同概率的一种概率分布状态。整数分布是离散形式的均匀分布(请见上文)。整数分布可用于对掷骰子时每个数字的出现机会(每个数字都有六分之一的出现概率)建模、在模拟模型中为随机事件建模或为生物研究选择采样地点。

整数分布通常用于对每个可能结果或事件发生概率都相等的随机事件建模。

整数分布
整数分布

整数分布的公式如下:

整数分布公式
整数分布公式

其中

a 是等概率区间的最小值。

b 是等概率区间的最大值。

x 为观测值。

所选的随机值介于最小值和最大值之间(不包括最大值和最小值)。最小值必须小于最大值。如果未提供最小值和最大值,则会生成 1 与 100 之间的均匀值。

正态分布

正态分布用于对常见的连续随机变量建模。正态分布被广泛采用,适用于许多应用领域。它的理论基础是中心极限定理,该定理所基于的原理是:如果存在大量观测值,则随机变量的总和将呈正态分布。例如,如果多次抛掷硬币,则在一连串抛币动作中硬币正面朝上的次数将接近正态分布。正态分布的例子包括:某国家的人的身高、某个省的各个高程值以及 12 岁学生的数学考试分数。

正态分布
正态分布

正态分布的公式如下:

正态分布公式
正态分布公式

其中

μ 是平均值。

σ 是标准差(正数)。

正态分布关于平均值、众数和中值对称(都在 μ 处相等)。

通常二项分布和泊松分布使用数量较少的观测值对未来的离散型独立随机事件(可能发生,也可能不发生。例如,抛硬币时硬币正面朝上的次数)建模,而正态分布则使用大量的观测值对连续型变量(例如高度、重量和金额)建模。二项分布和泊松分布以概率为基础,而正态分布涉及的是达到某个量或量值的观测值数量。

指数分布

指数分布是一种连续型概率分布。它通常的建模对象是以恒定平均速率发生的事件之间的时间间隔,也可以是单位距离内事件的发生频率。在十字路口接连发生的两次交通事故的时间间隔、夜晚在天空两次看到流星的时间间隔,以及街道上各坑洼处之间的距离,这些都是指数分布的典型例子。在以上每个例子中,随着时间或距离的增加,状态改变或事件发生的机率也会呈指数增加。各事件的发生是相互独立的。

指数分布
指数分布

指数分布的公式如下:

指数分布公式
指数分布公式

其中

e 是自然对数的底。

x 是事件的可能发生次数(正整数)。

指数分布可以用于对现象处于初始状态的泊松过程建模。指数分布是连续形式的几何分布。如果从状态 A 过渡到状态 B 的过程可划分为若干个独立阶段,则最好使用 Gamma 分布进行建模。Gamma 分布用于对多个呈指数分布的独立变量的总和建模。可将它视为是指数分布的特例。

泊松分布

泊松分布是一种离散型概率分布。泊松分布适合在给定一个已知平均值的情况下对固定时间步长内事件的发生次数概率进行建模。这些事件与它们最后一次发生的状态无关。X 轴上是 0、1、2、3、4(以此类推)等事件的离散值(通常表示事件的发生次数),Y 轴上是现象的发生概率(通常是给定一个已知平均值)。这些事件可以是十字路口的事故发生次数、出生缺陷数量或一平方公里内驼鹿的数量。泊松分布可以对小概率事件进行建模。这种分布有时也被称为小数定律 (Law of small numbers),因为事件不经常发生,但仍有很多机会让它发生。

泊松分布
泊松分布

泊松分布的公式如下:

泊松分布公式
泊松分布公式

其中

e 是自然对数的底。

k 是事件的可能发生次数(正整数)。

k! 是 k 的阶乘。

λ(即,平均值)是一个正数,代表指定区间内事件的预期发生次数。如果事件在 1 小时内(60 分钟)每 10 分钟发生一次,则 λ 为 6。

泊松分布与二项分布类似,但泊松分布是在不知道事件的可能发生总次数的情况下对小概率事件建模。泊松分布的建模对象是十字路口的事故发生次数,而二项分布的建模对象是事故发生次数与经由十字路口的汽车数量之间的相对关系。

Gamma 分布

Gamma 分布是一种连续型概率分布。Gamma 分布用于对多个呈指数分布的独立变量的总和建模。可将它视为是指数分布的特例。

Gamma 分布
Gamma 分布

Gamma 分布的公式如下:

Gamma 分布公式 1
Gamma 分布公式 1

Gamma 分布的另一种参数化方式是:

Gamma 分布公式 2
Gamma 分布公式 2

α 等于 1 时,Gamma 分布等同于指数分布。当 α 为整数时,Gamma 分布变为 Erlang 分布。如果 α 是整数且 β 等于 2,则 Gamma 分布变为自由度为 2*α 的卡方分布。

由此产生的变量大于或等于 0.0。α 和 β 必须大于 0.0。

二项分布

二项分布可基于对一系列潜在事件实际发生情况的观测对事件的发生次数建模。例如,二项分布可用于采集在临床研究中死于心脏病的人数、拥挤电梯中在第二层走出电梯的人数,或是某动物种群中携带特定遗传性状的动物数量。

二项分布
二项分布

二项分布描述的是发生次数,而不是量值。它可以对完成比赛的参赛者数量建模,但不能对参赛者的速度建模。

二项分布的公式如下:

二项分布公式
二项分布公式

其中

n 是观测值数量。

p 是发生概率。

x 是成功次数(从 0 到 n)。

使用二项分布的一个常见例子是,在抛掷硬币 10 次 (n = 10) 的情况下判断硬币正面朝上的次数概率。可能出现的情况是,10 次中有 0 次正面朝上、10 次中有 1 次正面朝上,以此类推;因此,x = 0、1、2、3、4、5、6、7、8、9、10。p 是每个 x 的概率。

所有试验都是相互独立的,并且每个试验只有成功和失败这两种结果。

如果 n 值较大且 p 值较小,则二项分布接近泊松分布。这种情况下使用泊松分布会更加简便。

二项分布将返回代表 n 次试验中成功次数的随机变量,其中每次试验的成功概率为 p(例如,硬币正面朝上的概率为 p)。

几何分布

几何分布是一种离散型概率分布。它主要对两种现象建模:(1) 在成功之前需要经历的试验的次数概率(例如,掷骰子时要掷多少次才能掷到数字 6)或 (2) 在成功之前需要经历的失败次数概率(例如,在某条小路上要徒步远足多少次才能看见一只鹿)。在该小路上第一次徒步远足时看不到鹿的概率为 (1 - p)。在第二次徒步远足时,看不到鹿的概率为 (1 - p) (1 - p)。随着在这条小路上一次次的徒步远足,看不到鹿的概率会呈指数降低,最后终于发现了一只鹿。这些事件彼此相互独立。

几何分布
几何分布

几何分布公式如下所示:

几何分布公式
几何分布公式

其中

p 是成功概率。

n 是试验次数。

几何分布是离散形式的指数分布(如上所述)。几何分布是负二项分布(或帕斯卡分布)的特例,在帕斯卡分布中 r 等于 1(请见下文)。

负二项分布

负二项分布是一种离散型概率分布。负二项分布是在伯努利试验的基础上得出的。伯努利试验所适用的事件具有以下特质:试验结果只能是两个可能结果(成功和失败)中的一个;具有成功概率 p(p 在每次试验中都相同);彼此之间相互独立。抛掷硬币就是一种伯努利试验。例如,负二项分布可以用来分析要抛掷硬币多少次才能使其连续五次都正面朝上。因此,负二项分布的建模对象是成功之前的失败次数。当 r 为整数时,负二项分布成为一种特例,即帕斯卡分布。

负二项分布的公式如下:

帕斯卡分布公式
帕斯卡分布公式

其中

r 是失败次数。

p 是成功概率。

k 是成功次数(范围从 0 到 n)。

当负二项分布用来模拟硬币抛掷时,将返回一个随机值,表示在硬币正面朝上之前要抛掷的次数。