Probability function: P(X=x),对于discrete random variable可以写为p(x)。
对于continuous random variables,会写成f(x),称作probability density function.
Cumulative probability function:$F(x)=P(X\le x)$
Uniform Distribution
所有结果的可能性相同就是uniform distribution。pdf是: $f(x)= \begin{cases} \frac{1}{b-a} & a\le x\le b\\ 0 & otherwise \end{cases}$ 对于continous random variable来说,任意一个确定的值的probability是0。
CDF是:
$F(x)=
\begin{cases}
0 & \text{if }x < a\\
\frac{x-a}{b-a} & \text{if } a\le x \le b \\
1 & \text{if } x > b
\end{cases}$
其中积分过程是:
$F(x) = \int_{a}^{x} \frac{1}{b-a} \, dt = \left. \frac{t}{b-a} \right|_{a}^{x} = \frac{x-a}{b-a}$
引申出来对于所有的连续随机变量,cdf是:
$P(a\le X \le b)=\int^b_a f(x)dx$
由于连续随机变量的临界点也是点,所以probability是0,于是:
$P(a\le X \le b)=P(a
Binomial Distribution
Bernoulli trial就是会produce one of two outcomes的trial;假设Y=1代表success的outcome,Y=0代表failure的outcome,那么 $p(1)=P(Y=1)=p$,$p(0)=P(Y=0)=1-p$。
n个Bernoulli trial会有0到n个success;如果每个Bernoulli trial的结果是random的,那么success的数量就是random的,构成binomial random variable。
Binomial ditribution有两个假设:
- p对于所有trail是constant的
- 每个trial是independent的
用n和p就能描述一个binomial distribution: $X \sim B(n,p)$ n=1时就是binomial random variable Y。
- 对于n个trials,有x个success就会有n-x个failure
- 给定success的概率是p,那么这种结果的概率就是 $p^x(1-p)^{n-x}$
- n个outcome中满足x个success的组合形式,用组合公式nCx
- 可得binomial ditribution的pdf:
Binomial Tree:
需要注意的是:u和d是1+收益率,也就是compound算法。股票价格本身不是binomial的。
平均数和方差:
Mean | Variance | |
---|---|---|
B(1,p) | p | p(1-p) |
B(n,p) | np | np(1-p) |
n=1,求p等于求均值。
Normal Distribution
Central limit theorem: the sum (and the mean) of a set of independent, identically distributed random variables with finite variances is normally distributed, whatever distribution the random variables follow.
用平均数 $\mu$ 和方差 $\sigma^2$ 来描述正态分布:$X \sim N(\mu,\sigma^2)$
正态分布的偏度是0(对称的),峰度是3。由于对称性,mean、median、mode相等。linear combination of normal random variables也服从正态分布。
描述单变量的是univariate,多变量则是multivariate。对于multivariate,则是通过:n个mean、n个variance、n(n-1)/2个correlations来定义的。
pdf: $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \, e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 在实际投资里,正态分布1)更适合quarterly或yearly,对weekly和daily不那么合适;2)会有fat tails problem;3)会低估极端情况;4)期权的收益不是对称的,所以对于包含大量期权position的portfolio要小心使用;5)适合return不适合price。
概率(这里的是双侧):
- 2/3个标准差:50%
- 1个标准差:68%
- 2(1.96)个标准差:95%
- 3(2.68)个标准差:99%
Excel相关函数
NORM.S.DIST(Z,0)
其中Z是与mean的标准差距离。如果数字是0那么就是pdf,如果是1就是cdf。
NORM.S.INV(x)
计算那个Z值使得其cdf是x(比如5%):
- 如果要计算90%的observation落在的范围,则要10%/2=5%,用INV算0.05,然后范围是±
标准化
使用Z-Score将normal random variable变成standard normal variable: $Z=(X-\mu)/\sigma$
t分布
data一节中提到的sample variance使用的分母是n-1,是因为计算方差时需要先计算样本均值,而这就导致了:以10个observation、均值为10%为例,由于observation是要independent的,但是在independently抽取9个样本之后,总能算出第10个值使得均值是10%;于是所谓“自由度”就只有9。
因此根据样本方差得到z值(这里叫t值):
$s^2=\frac{\Sigma{(X_i-\bar X)^2}}{n-1} \\ t=\frac{\bar X - \mu}{\frac{s}{\sqrt n}}$ 称作:服从mean是0、n-1自由度(df)的t分布。
相比标准正态分布,t分布有更fat的尾;随着df的增加(也就是样本量的增大)会逐渐趋近正态分布的样子。
卡方分布和F分布
这两个都是非对称的。
Chi-square分布,自由度k:k个independent标准正态分布的variable的平方和。
F分布,自由度由m和n两个组成:$F=(\chi_1^2/m)/(\chi_2^2/n)$ ,读作F-distribution with m numerator and n denominator degrees of freedom
Student’s t、卡方和F分布多数用来进行假设检验。t检验测试的是关于mean;卡方测试的是variance;F测试的是variance的相同与否。