確率とは

確率についてもいろいろ数学的に考えることはありますが、とりあえずの定義として、「何らかの行動を繰り返し行ったときにある現象が起こる割合の極限値」としておきます。例えば、サイコロを10回、100回、1000回……と振ったときに最終的にはどの目が出た回数も等しくなるはずなので、1が出る割合は $\frac{1}{6}$ となることが期待されます。

このように何らかの確率に従って起こる現象を確率事象と呼び、その結果は確率変数で表現します。例えば確率変数$X$をサイコロを振った時に出る目とした場合、1が出るという事象は$X=1$で表し、その確率は $P(X=1)=\frac{1}{6}$ のように書きます。

概率的加法定理

複数の確率変数が取る値を同時に指定した時の確率を同時確率といいます。2変数の場合、確率変数$X, Y$が$X=x_i, Y=y_j$になる同時確率は $P(X=x_i, Y=y_j)$ のように表します。このとき、$Y$の取りうる値が$L$種類あるとすると $P(X=x_i) = \sum_{j=1}^{L} P(X=x_i, Y=y_j)$ が成り立ちます。これを確率の加法定理と呼び、このようにして求めた確率を周辺確率と呼びます。多変数の場合は2変数の場合を順番に適用します。

在这里要弄清楚条件概率这个概念。P(|#)是条件概率的通用符号，在“|”后边出现的#为条件，之前的为某个事件，即在某条件#下出现某个事件*的概率。$P(\omega_k|X)$是表示在X出现条件下，样本为$\omega_k$类的概率。

概率的乘法定理

複数の確率変数があるときに、一部の確率変数が取る値が指定されたときの他の変数の確率を条件付き確率といいます。2変数の場合、確率変数$X$が$X=x_i$であると指定されたときに$Y=y_i$となる条件付き確率を $P(Y=y_j|X=x_i)$ のように書きます。このとき、 $P(X=x_i, Y=y_j) = P(Y=y_j|X=x_i)P(X=x_i)$ が成立します。これを確率の乗法定理と呼びます。

ここまでは確率を$P(X=x_i)$のように書きましたが、簡単のために確率変数の値を明記せず関数のように $P(X)$ のような表記をすることの方が多いです。こうすると、加法定理と乗法定理は

$P(X) = \sum_Y P(X, Y)$ $P(X, Y) = P(Y|X)P(X)$

と表されます。

$P(X, Y) = P(X)P(Y)$ が成り立つ時、$X$と$Y$は独立であるといいます。

---ここに具体例を書く ---

贝叶斯定理

贝叶斯公式：两个事物X与w联合出现的概率称为联合概率，可写成 $P(X, Y)$ 而它们又可与条件概率联系起来。

$P(X, Y) = P(Y, X)$ が成立するので、確率の乗法定理より $P(Y|X)P(X) = P(X|Y)P(Y)$ が成立します。これを変形して、 $P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)} = \frac{P(X|Y)P(Y)}{\sum_YP(X|Y)P(Y)}$ を得ます。これをベイズの定理と呼びます。この定理は$Y$の確率と$Y$が与えられたもとでの$X$の条件付き確率だけ分かれば、$X$が与えられたもとでの$Y$の条件付き確率を求められるということを表しています。如果将上式中各个项与先验概率，类分布密度函数以及后验概率联合起来，可以找到利用先验概率，分布密度函数计算后验概率的方法。ここまでは確率に「繰り返し試行したときの実現回数の割合」というような頻度主義に基づく定義を採用してきました。しかし世の中には繰り返し実行できない行動も存在しますが、その行動の中でも起こりやすい事象と起こりにくい事象には差があります。例えば、花瓶を投げたときに花瓶が割れる可能性と花瓶が割れずに床を突き抜ける可能性を比べたら明らかに前者の方が高いですが、花瓶を投げたら割れてしまうのでこれを繰り返し行って確率を調べることができません。そこで、確率はその事象の不確実性を定量的に表すものであるというベイズ主義に基づく確率の解釈を採用します。人間が不確実性を処理する時の常識を確率として表現すると、頻度主義に基づいて導いた確率論の諸法則がそのまま成り立つことが知られているのでこの解釈を採用しても確率論はそのまま展開することができます。

ベイズ主義に基づいてベイズの定理を解釈してみます。$P(Y)$ は何も事前知識がないときに$Y$ の値に関する不確実性（事前確率）を意味し、$P(Y|X)$ は$X$という現象が起きたことを知った時点での$Y$の値に関する不確実性（事後確率）を意味しています。そのためベイズの定理はある現象が起こったことを知った後で、事前確率からどのように事後確率を求めるべきかを表した定理であると解釈できます。なお、 $P(X|Y)$ は*尤度といいます。

先验概率：根据大量统计确定某类事物出现的比例，如我国理工科大学男女生比例大约为8:2，则在这类学校一个学生是男生的先验概率为0.8，而为女生的概率是0.2，这两类概率是互相制约的，因为这两个概率之和应满足总和为1的约束。
类分布概率密度函数：同一类事物的各个属性都有一定的变化范围，在这些变化范围内的分布密度用一种函数形式表示，则称为类分布概率密度函数，这种函数可以是一些著名的普遍运用的函数形式，如正态分布，也可能是更复杂的无法用分析式表示的函数。这种分布密度只对同一类事物而言，因此与其它类事物没有关系。例如，男女生比例是男生与女生这两类事物之间的关系，而男生高度的分布则与女生的分布无关。为了强调是同一类事物内部，因此这种分布密度函数往往表示成条件概率的形式。例如X表示某一个学生的特征向量，则，男生的分布概率密度表示成$P(X|boy)$，女生的表示成$P(X|girl)$这两者之间没有任何关系。即一般的情况下$P(X|w1)+P(X|w2)\neq 1$，可为从0~2之间的任意值。
后验概率：一个具体事物属于某种类别的概率，例如一个学生用特征向量X表示，它是男性或女性的概率表示成$P(boy|X)$和$P(girl|X)$这就是后验概率。由于一个学生只可能为两个性别之一，因此有$P(boy|X)+P(girl|X)=1$的约束，这一点是与类分布密度函数不同的。后验概率与先验概率也不同，后验概率涉及一个具体事物，而先验概率是泛指一类事物，因此 $P(boy|X)$和$P(boy)$是两个不同的概念

期待値と分散

関数 $f(x)$ の確率に関する重み付き平均値を期待値といい、 $\mathbb{E}[f] = \sum_X p(X) f(X)$ のように表します。

また、確率値が期待値の周りでどれくらいばらつくかを表す指標を分散といい、 $var[f] = \mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^2\right]$ と表します。

確率密度

今までは確率値を離散的な値について考えてきましたが、連続値についても確率を考えることができます。実数$x$が区間 $(x, x+\delta x)$ に入る確率が $\delta x \to 0$ のとき $p(x)\delta x$で与えられるとき、 $p(x)$ を$x$の確率密度と呼びます。

確率密度は $p(x) \geq 0$ $\int _\infty ^\infty p(x)dx = 1$ を満たします。

確率を連続値に拡張してもいままで説明した内容は（和を積分に書き換えるなどの細部は除いて）そのまま成り立ちます。

单变量正态分布

单变量正态分布概率密度函数定义为

確率密度として代表的なガウス分布は $p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp { \left( -\frac{1}{2\sigma^2}(x-\mu)^2 \right)}$ という形をしています。式中$\mu$表示随机变量$x$的数学期望，$\sigma^2$为其方差，而$\sigma$则称为标准差。 $\mu=E(x)=\int _{-\infty} ^{+\infty} xp(x)dx$ $\sigma^2=\int _{-\infty} ^{+\infty} (x-\mu)^2p(x)dx$ 上式表明单变量正态分布概率密度函数$p(x)$完全可由$\mu$与$\sigma^2$两个参数确定，常记作$N(\mu, \sigma^2)$。正态分布的样本主要集中分布在其均值附近，其分散程度可用标准差来衡量，$\sigma$愈大分散程度也越大。从正态分布的总体中抽取样本，约有95%的样本都落在区间$(\mu-2\sigma, \mu+2\sigma)$内。　　为了加深对正态分布的理解，对正态分布再进一步讨论一下。　　首先正态分布是指一个随机实数度量值在整个实数域上的分布规律。因此它属于概率密度函数类，不是我们所讨论的先验概率$P(\omega_i)$，也不是后验概率$P(\omega_i|X)$，而是$p(x|\omega_i)$。式(2-37)用$p(x)$表示，是因为通用公式，如具体到我们的情况，可将(2-37)具体化，则

。

条件概率模型 Conditional Probability Model

loss function as corresponding to a conditional log-likelihood, i.e., the negative log-likelihood (NLL) cost function ${ L }_{ NLL }({ f }_{ \theta }(x),y)=-logP(y=y|x=x;\theta)$
example) if y is a continuous random variable and we assume that, given x, it has a Gaussian distribution with mean ${f}_{\theta}$(x) and variance ${\sigma}^{2}$ $-logP(y|x;\theta)=\frac { 1 }{ 2 } { ({ f }_{ \theta }(x)-y) }^{ 1 }/{ \sigma }^{ 2 }+log(2\pi{ \sigma }^{ 2 })$
minimizing this negative log-likelihood is therefore equivalent to minimizing the squared error loss.
for discrete variables, the binomial negative log-likelihood cost function corresponds to the conditional log-likelihood associated with the Bernoulli distribution (also known as cross entropy) with probability $p = {f}_{\theta}(x)$ of generating y = 1 given x =$ x$ ${L}_{NLL}=-logP(y|x;\theta)={-1}_{y=1}{logp-1}_{y=0}log(1-p)$ $=-ylog{f}_{\theta}(x)-(1-y)log(1-{f}_{\theta}(x))$

Probability Theory