cfa笔cpd

Probability function: P(X=x),对于discrete random variable可以写为p(x)。

对于continuous random variables,会写成f(x),称作probability density function.

Cumulative probability function:$$ F(x)=P(X\le x) $$

Uniform Distribution

所有结果的可能性相同就是uniform distribution。pdf是:

$$
\displaylines{
f(x)=
\begin{cases}
\frac{1}{b-a} & a\le x\le b\
0 & otherwise
\end{cases}
}
$$

对于continous random variable来说,任意一个确定的值的probability是0。

CDF是:

$$
\displaylines{
F(x)=
\begin{cases}
0 & \text{if }x < a\
\frac{x-a}{b-a} & \text{if } a\le x \le b \
1 & \text{if } x > b
\end{cases}
}
$$

其中积分过程是:

$$
\displaylines{
F(x) = \int_{a}^{x} \frac{1}{b-a} , dt = \left. \frac{t}{b-a} \right|_{a}^{x} = \frac{x-a}{b-a}
}
$$

引申出来对于所有的连续随机变量,cdf是:

$$
\displaylines{
P(a\le X \le b)=\int^b_a f(x)dx
}
$$

由于连续随机变量的临界点也是点,所以probability是0,于是:

$$
\displaylines{
P(a\le X \le b)=P(a<X\le b)=P(a\le X < b)=P(a < X < b)
}
$$

Binomial Distribution

Bernoulli trial就是会produce one of two outcomes的trial;假设Y=1代表success的outcome,Y=0代表failure的outcome,那么 $$ p(1)=P(Y=1)=p $$,$$ p(0)=P(Y=0)=1-p $$。

n个Bernoulli trial会有0到n个success;如果每个Bernoulli trial的结果是random的,那么success的数量就是random的,构成binomial random variable。

Binomial ditribution有两个假设:

  1. p对于所有trail是constant的
  2. 每个trial是independent的

用n和p就能描述一个binomial distribution:

$$
\displaylines{
X \sim B(n,p)
}
$$

n=1时就是binomial random variable Y。

  1. 对于n个trials,有x个success就会有n-x个failure
  2. 给定success的概率是p,那么这种结果的概率就是 $$ p^x(1-p)^{n-x} $$
  3. n个outcome中满足x个success的组合形式,用组合公式nCx
  4. 可得binomial ditribution的pdf:

$$
\displaylines{
p(x)=P(X=x)=(^n_x)p^x(1-p)^{n-x}=\frac{n!}{(n-x)!x!}p^x(1-p)^{n-x}
}
$$

Binomial Tree:

Alt text

需要注意的是:u和d是1+收益率,也就是compound算法。股票价格本身不是binomial的。

平均数和方差:

Mean Variance
B(1,p) p p(1-p)
B(n,p) np np(1-p)

Alt text

n=1,求p等于求均值。

Normal Distribution

Central limit theorem: the sum (and the mean) of a set of independent, identically distributed random variables with finite variances is normally distributed, whatever distribution the random variables follow.

用平均数 $$ \mu $$ 和方差 $$ \sigma^2 $$ 来描述正态分布:$$ X \sim N(\mu,\sigma^2) $$

正态分布的偏度是0(对称的),峰度是3。由于对称性,mean、median、mode相等。linear combination of normal random variables也服从正态分布。

描述单变量的是univariate,多变量则是multivariate。对于multivariate,则是通过:n个mean、n个variance、n(n-1)/2个correlations来定义的。

pdf:

$$
\displaylines{
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} , e^{-\frac{(x-\mu)^2}{2\sigma^2}}
}
$$

在实际投资里,正态分布1)更适合quarterly或yearly,对weekly和daily不那么合适;2)会有fat tails problem;3)会低估极端情况;4)期权的收益不是对称的,所以对于包含大量期权position的portfolio要小心使用;5)适合return不适合price。

概率(这里的是双侧):

  1. 2/3个标准差:50%
  2. 1个标准差:68%
  3. 2(1.96)个标准差:95%
  4. 3(2.68)个标准差:99%

Excel相关函数

NORM.S.DIST(Z,0)其中Z是与mean的标准差距离。如果数字是0那么就是pdf,如果是1就是cdf。

NORM.S.INV(x)计算那个Z值使得其cdf是x(比如5%):

  1. 如果要计算90%的observation落在的范围,则要10%/2=5%,用INV算0.05,然后范围是±

标准化

使用Z-Score将normal random variable变成standard normal variable:

$$
\displaylines{
Z=(X-\mu)/\sigma
}
$$

t分布

data一节中提到的sample variance使用的分母是n-1,是因为计算方差时需要先计算样本均值,而这就导致了:以10个observation、均值为10%为例,由于observation是要independent的,但是在independently抽取9个样本之后,总能算出第10个值使得均值是10%;于是所谓“自由度”就只有9。

因此根据样本方差得到z值(这里叫t值):

$$
\displaylines{
s^2=\frac{\Sigma{(X_i-\bar X)^2}}{n-1} \
t=\frac{\bar X - \mu}{\frac{s}{\sqrt n}}
}
$$

称作:服从mean是0、n-1自由度(df)的t分布。

相比标准正态分布,t分布有更fat的尾;随着df的增加(也就是样本量的增大)会逐渐趋近正态分布的样子。

卡方分布和F分布

这两个都是非对称的。

Chi-square分布,自由度k:k个independent标准正态分布的variable的平方和。

F分布,自由度由m和n两个组成:$$ F=(\chi_1^2/m)/(\chi_2^2/n)$$ ,读作F-distribution with m numerator and n denominator degrees of freedom

Student’s t、卡方和F分布多数用来进行假设检验。t检验测试的是关于mean;卡方测试的是variance;F测试的是variance的相同与否。