数据科学与机器学习:数学与统计方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

数学符号

我们当然可以使用任何我们想用的符号,不要嘲笑符号,要发明符号,因为它们很强大。事实上,数学在很大程度上就是为了发明更好的符号。

——理查德·P.费曼

我们使用的符号系统按照重要性顺序应具有如下特点:简单、描述性、一致性以及与历史选择相兼容。同时实现所有这些目标是不可能的,但我们希望我们的符号有助于快速识别某些数学对象(向量、矩阵、随机向量、概率测度等)的类型,并阐明错综复杂的思想。

我们利用各种印刷体例,读者了解这些体例含义将是有益的。

•黑斜体表示复合对象,如列向量x=[x1,…,xn]T和矩阵X=[xij]。

•随机变量通常用大写罗马字母XYZ表示,它们的结果用小写字母xyz来表示。因此,随机向量用黑斜体大写字母表示,例如X=[X1,…,Xn]T

•向量集合一般用书法字体表示,比如χ,但实数集合使用常见的R表示,期望和概率也使用后一种字体。

•概率分布使用无衬线字体,如BinGamma。正态分布和均匀分布的“标准”符号N和U例外。

•当函数或运算符的参数很清楚时,我们经常省略括号。例如,使用EX2而不是E[X2]。

•所有代码都使用代码体表示。为了与过去的符号兼容,我们引入一个特殊的符号X,表示线性模型的模型(设计)矩阵。

•重要的符号如Tgg*常以英文单词首字母表示的助记法来定义,例如T代表“训练”,g代表“猜测”,g*代表“星”(即最优)猜测,代表“损失”。

•我们偶尔会使用贝叶斯符号约定,使用相同的符号表示不同的(条件)概率密度。特别是,对于X的概率密度函数,我们简单写作f(x)而不是fX(x);对于给定YX的条件概率密度函数,我们简单写作而不是。这种特殊的符号表示方法有很强的描述能力,尽管它有明显的模糊性。

通用字体/符号规则

x  标量

x  向量

X  随机向量、矩阵

χ  集合

  估计或近似值

x*  最优值

  平均值

常见的数学符号

∀  对任意

∃  存在

∝  与……成正比

⊥  垂直于

~  服从分布

iid  独立同分布

  近似服从分布

f  f的梯度

2f  f的Hessian矩阵

fCp  f具有p阶连续导数

≈  约等于

≃  渐进等于

≪  远小于

⊕  直和

⊙  对应元素乘积

∩  交

∪  并

:=或=:  定义

  几乎必然收敛于

  依分布收敛于

  依概率收敛于

  依Lp范数收敛于

  欧几里得范数

  大于x的最小整数

  小于x的最大整数

x+  max{x,0}

矩阵或向量表示

ATxT  矩阵A或向量x的转置

A-1  矩阵A的逆

A+  矩阵A的伪逆

A-T  矩阵AT的逆或A-1的转置

A>0  矩阵A是正定的

A≥0  矩阵A是半正定的

dim(x)  向量x的维数

det(A)  矩阵A的行列式

  矩阵A的行列式的绝对值

tr(A)  矩阵A的迹

保留字母和保留词

C  复数集合

d  微分符号

E  期望

e  2.71828…

f  概率密度(离散或连续)

g  预测函数

1{A}或1A  集合A的指示函数

i  -1的平方根

  风险:预期损失

Loss  损失函数

ln  自然对数

N  自然数集合{0,1,…}

O  大O阶符号:对于某个常数α,当xα时,如果|f(x)|≤αg(x),则f(x)=O(g(x))

o  小o阶符号:对于某个常数α,当xα时,如果f(x)/g(x)→0,则f(x)=o(g(x))

P  概率测度

π  3.14159…

R  实数集合(一维欧氏空间)

Rn  n维欧氏空间

R+  正实数线性空间:[0,∞)

τ  确定性训练集

T  随机训练集

X  模型(设计)矩阵

Z  整数集合{…,-1,0,1,…}

概率分布

Ber  伯努利分布

Beta  贝塔分布

Bin  二项分布

Exp  指数分布

Geom  几何分布

Gamma  伽马分布

F  F分布

N  正态分布或高斯分布

Pareto  帕雷托分布

Poi  泊松分布

t  学生分布

U  均匀分布

缩写和缩略语

cdf  累积分布函数(cumulative distribution function)

CMC  朴素蒙特卡罗(Crude Monte Carlo)

CE  交叉熵(Cross-Entropy)

EM  期望最大化(Expectation-Maximization)

GP  高斯过程(Gaussian Process)

KDE  核密度估计/估计器(Kernel Density Estimate/Estimator)

KL  库尔贝克-莱布勒(Kullback-Leibler)

KKT  卡罗需-库恩-塔克(Karush-Kuhn-Tucker)

iid  独立同分布(independent and identically distributed)

MAP  最大后验概率(Maximum A Posteriori)

MCMC  马尔可夫链蒙特卡罗(Markov Chain Monte Carlo)

MLE  极大似然估计/估计器(Maximum Likelihood Estimate/Estimator)

OOB  袋外(Out-Of-Bag)

PCA  主成分分析(Principal Component Analysis)

pdf  概率密度函数(probability density function)(离散或连续)

SVD  奇异值分解(Singular Value Decomposition)