Cfa笔cpd

于 2024-03-04 发布

Probability function: P(X=x),对于discrete random variable可以写为p(x)。

对于continuous random variables,会写成f(x),称作probability density function.

Cumulative probability function:$F(x)=P(X\le x)$

Uniform Distribution

所有结果的可能性相同就是uniform distribution。pdf是: $f(x)= \begin{cases} \frac{1}{b-a} & a\le x\le b\\ 0 & otherwise \end{cases}$ 对于continous random variable来说,任意一个确定的值的probability是0。

CDF是: $F(x)= \begin{cases} 0 & \text{if }x < a\\ \frac{x-a}{b-a} & \text{if } a\le x \le b \\ 1 & \text{if } x > b \end{cases}$ 其中积分过程是: $F(x) = \int_{a}^{x} \frac{1}{b-a} \, dt = \left. \frac{t}{b-a} \right|_{a}^{x} = \frac{x-a}{b-a}$ 引申出来对于所有的连续随机变量,cdf是: $P(a\le X \le b)=\int^b_a f(x)dx$ 由于连续随机变量的临界点也是点,所以probability是0,于是: $P(a\le X \le b)=P(a

Binomial Distribution

Bernoulli trial就是会produce one of two outcomes的trial;假设Y=1代表success的outcome,Y=0代表failure的outcome,那么 $p(1)=P(Y=1)=p$$p(0)=P(Y=0)=1-p$

n个Bernoulli trial会有0到n个success;如果每个Bernoulli trial的结果是random的,那么success的数量就是random的,构成binomial random variable。

Binomial ditribution有两个假设:

  1. p对于所有trail是constant的
  2. 每个trial是independent的

用n和p就能描述一个binomial distribution: $X \sim B(n,p)$ n=1时就是binomial random variable Y。

  1. 对于n个trials,有x个success就会有n-x个failure
  2. 给定success的概率是p,那么这种结果的概率就是 $p^x(1-p)^{n-x}$
  3. n个outcome中满足x个success的组合形式,用组合公式nCx
  4. 可得binomial ditribution的pdf:
$$ p(x)=P(X=x)=(^n_x)p^x(1-p)^{n-x}=\frac{n!}{(n-x)!x!}p^x(1-p)^{n-x} $$

Binomial Tree:

Alt text

需要注意的是:u和d是1+收益率,也就是compound算法。股票价格本身不是binomial的。

平均数和方差:

  Mean Variance
B(1,p) p p(1-p)
B(n,p) np np(1-p)

Alt text

n=1,求p等于求均值。

Normal Distribution

Central limit theorem: the sum (and the mean) of a set of independent, identically distributed random variables with finite variances is normally distributed, whatever distribution the random variables follow.

用平均数 $\mu$ 和方差 $\sigma^2$ 来描述正态分布:$X \sim N(\mu,\sigma^2)$

正态分布的偏度是0(对称的),峰度是3。由于对称性,mean、median、mode相等。linear combination of normal random variables也服从正态分布。

描述单变量的是univariate,多变量则是multivariate。对于multivariate,则是通过:n个mean、n个variance、n(n-1)/2个correlations来定义的。

pdf: $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \, e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 在实际投资里,正态分布1)更适合quarterly或yearly,对weekly和daily不那么合适;2)会有fat tails problem;3)会低估极端情况;4)期权的收益不是对称的,所以对于包含大量期权position的portfolio要小心使用;5)适合return不适合price。

概率(这里的是双侧):

  1. 2/3个标准差:50%
  2. 1个标准差:68%
  3. 2(1.96)个标准差:95%
  4. 3(2.68)个标准差:99%

Excel相关函数

NORM.S.DIST(Z,0)其中Z是与mean的标准差距离。如果数字是0那么就是pdf,如果是1就是cdf。

NORM.S.INV(x)计算那个Z值使得其cdf是x(比如5%):

  1. 如果要计算90%的observation落在的范围,则要10%/2=5%,用INV算0.05,然后范围是±

标准化

使用Z-Score将normal random variable变成standard normal variable: $Z=(X-\mu)/\sigma$

t分布

data一节中提到的sample variance使用的分母是n-1,是因为计算方差时需要先计算样本均值,而这就导致了:以10个observation、均值为10%为例,由于observation是要independent的,但是在independently抽取9个样本之后,总能算出第10个值使得均值是10%;于是所谓“自由度”就只有9。

因此根据样本方差得到z值(这里叫t值):

$s^2=\frac{\Sigma{(X_i-\bar X)^2}}{n-1} \\ t=\frac{\bar X - \mu}{\frac{s}{\sqrt n}}$ 称作:服从mean是0、n-1自由度(df)的t分布。

相比标准正态分布,t分布有更fat的尾;随着df的增加(也就是样本量的增大)会逐渐趋近正态分布的样子。

卡方分布和F分布

这两个都是非对称的。

Chi-square分布,自由度k:k个independent标准正态分布的variable的平方和。

F分布,自由度由m和n两个组成:$F=(\chi_1^2/m)/(\chi_2^2/n)$ ,读作F-distribution with m numerator and n denominator degrees of freedom

Student’s t、卡方和F分布多数用来进行假设检验。t检验测试的是关于mean;卡方测试的是variance;F测试的是variance的相同与否。

目录