Probability function: P(X=x),对于discrete random variable可以写为p(x)。
对于continuous random variables,会写成f(x),称作probability density function.
Cumulative probability function:
Uniform Distribution
所有结果的可能性相同就是uniform distribution。pdf是:
对于continous random variable来说,任意一个确定的值的probability是0。
CDF是:
其中积分过程是:
引申出来对于所有的连续随机变量,cdf是:
由于连续随机变量的临界点也是点,所以probability是0,于是:
Binomial Distribution
Bernoulli trial就是会produce one of two outcomes的trial;假设Y=1代表success的outcome,Y=0代表failure的outcome,那么
n个Bernoulli trial会有0到n个success;如果每个Bernoulli trial的结果是random的,那么success的数量就是random的,构成binomial random variable。
Binomial ditribution有两个假设:
- p对于所有trail是constant的
- 每个trial是independent的
用n和p就能描述一个binomial distribution:
n=1时就是binomial random variable Y。
- 对于n个trials,有x个success就会有n-x个failure
- 给定success的概率是p,那么这种结果的概率就是
- n个outcome中满足x个success的组合形式,用组合公式nCx
- 可得binomial ditribution的pdf:
Binomial Tree:

需要注意的是:u和d是1+收益率,也就是compound算法。股票价格本身不是binomial的。
平均数和方差:
| Mean | Variance | |
|---|---|---|
| B(1,p) | p | p(1-p) |
| B(n,p) | np | np(1-p) |

n=1,求p等于求均值。
Normal Distribution
Central limit theorem: the sum (and the mean) of a set of independent, identically distributed random variables with finite variances is normally distributed, whatever distribution the random variables follow.
用平均数
正态分布的偏度是0(对称的),峰度是3。由于对称性,mean、median、mode相等。linear combination of normal random variables也服从正态分布。
描述单变量的是univariate,多变量则是multivariate。对于multivariate,则是通过:n个mean、n个variance、n(n-1)/2个correlations来定义的。
pdf:
在实际投资里,正态分布1)更适合quarterly或yearly,对weekly和daily不那么合适;2)会有fat tails problem;3)会低估极端情况;4)期权的收益不是对称的,所以对于包含大量期权position的portfolio要小心使用;5)适合return不适合price。
概率(这里的是双侧):
- 2/3个标准差:50%
- 1个标准差:68%
- 2(1.96)个标准差:95%
- 3(2.68)个标准差:99%
Excel相关函数
NORM.S.DIST(Z,0)其中Z是与mean的标准差距离。如果数字是0那么就是pdf,如果是1就是cdf。
NORM.S.INV(x)计算那个Z值使得其cdf是x(比如5%):
- 如果要计算90%的observation落在的范围,则要10%/2=5%,用INV算0.05,然后范围是±
标准化
使用Z-Score将normal random variable变成standard normal variable:
t分布
data一节中提到的sample variance使用的分母是n-1,是因为计算方差时需要先计算样本均值,而这就导致了:以10个observation、均值为10%为例,由于observation是要independent的,但是在independently抽取9个样本之后,总能算出第10个值使得均值是10%;于是所谓“自由度”就只有9。
因此根据样本方差得到z值(这里叫t值):
称作:服从mean是0、n-1自由度(df)的t分布。
相比标准正态分布,t分布有更fat的尾;随着df的增加(也就是样本量的增大)会逐渐趋近正态分布的样子。
卡方分布和F分布
这两个都是非对称的。
Chi-square分布,自由度k:k个independent标准正态分布的variable的平方和。
F分布,自由度由m和n两个组成:
Student’s t、卡方和F分布多数用来进行假设检验。t检验测试的是关于mean;卡方测试的是variance;F测试的是variance的相同与否。