数学符号
我们当然可以使用任何我们想用的符号,不要嘲笑符号,要发明符号,因为它们很强大。事实上,数学在很大程度上就是为了发明更好的符号。
——理查德·P.费曼
我们使用的符号系统按照重要性顺序应具有如下特点:简单、描述性、一致性以及与历史选择相兼容。同时实现所有这些目标是不可能的,但我们希望我们的符号有助于快速识别某些数学对象(向量、矩阵、随机向量、概率测度等)的类型,并阐明错综复杂的思想。
我们利用各种印刷体例,读者了解这些体例含义将是有益的。
•黑斜体表示复合对象,如列向量x=[x1,…,xn]T和矩阵X=[xij]。
•随机变量通常用大写罗马字母X、Y、Z表示,它们的结果用小写字母x、y、z来表示。因此,随机向量用黑斜体大写字母表示,例如X=[X1,…,Xn]T。
•向量集合一般用书法字体表示,比如χ,但实数集合使用常见的R表示,期望和概率也使用后一种字体。
•概率分布使用无衬线字体,如Bin和Gamma。正态分布和均匀分布的“标准”符号N和U例外。
•当函数或运算符的参数很清楚时,我们经常省略括号。例如,使用EX2而不是E[X2]。
•所有代码都使用代码体表示。为了与过去的符号兼容,我们引入一个特殊的符号X,表示线性模型的模型(设计)矩阵。
•重要的符号如T、g、g*、ℓ常以英文单词首字母表示的助记法来定义,例如T代表“训练”,g代表“猜测”,g*代表“星”(即最优)猜测,ℓ代表“损失”。
•我们偶尔会使用贝叶斯符号约定,使用相同的符号表示不同的(条件)概率密度。特别是,对于X的概率密度函数,我们简单写作f(x)而不是fX(x);对于给定Y时X的条件概率密度函数,我们简单写作而不是。这种特殊的符号表示方法有很强的描述能力,尽管它有明显的模糊性。
通用字体/符号规则
x 标量
x 向量
X 随机向量、矩阵
χ 集合
估计或近似值
x* 最优值
平均值
常见的数学符号
∀ 对任意
∃ 存在
∝ 与……成正比
⊥ 垂直于
~ 服从分布
或~iid 独立同分布
近似服从分布
∇f f的梯度
∇2f f的Hessian矩阵
f∈Cp f具有p阶连续导数
≈ 约等于
≃ 渐进等于
≪ 远小于
⊕ 直和
⊙ 对应元素乘积
∩ 交
∪ 并
:=或=: 定义
几乎必然收敛于
依分布收敛于
依概率收敛于
依Lp范数收敛于
欧几里得范数
大于x的最小整数
小于x的最大整数
x+ max{x,0}
矩阵或向量表示
AT或xT 矩阵A或向量x的转置
A-1 矩阵A的逆
A+ 矩阵A的伪逆
A-T 矩阵AT的逆或A-1的转置
A>0 矩阵A是正定的
A≥0 矩阵A是半正定的
dim(x) 向量x的维数
det(A) 矩阵A的行列式
矩阵A的行列式的绝对值
tr(A) 矩阵A的迹
保留字母和保留词
C 复数集合
d 微分符号
E 期望
e 2.71828…
f 概率密度(离散或连续)
g 预测函数
1{A}或1A 集合A的指示函数
i -1的平方根
ℓ 风险:预期损失
Loss 损失函数
ln 自然对数
N 自然数集合{0,1,…}
O 大O阶符号:对于某个常数α,当x→α时,如果|f(x)|≤αg(x),则f(x)=O(g(x))
o 小o阶符号:对于某个常数α,当x→α时,如果f(x)/g(x)→0,则f(x)=o(g(x))
P 概率测度
π 3.14159…
R 实数集合(一维欧氏空间)
Rn n维欧氏空间
R+ 正实数线性空间:[0,∞)
τ 确定性训练集
T 随机训练集
X 模型(设计)矩阵
Z 整数集合{…,-1,0,1,…}
概率分布
Ber 伯努利分布
Beta 贝塔分布
Bin 二项分布
Exp 指数分布
Geom 几何分布
Gamma 伽马分布
F F分布
N 正态分布或高斯分布
Pareto 帕雷托分布
Poi 泊松分布
t 学生分布
U 均匀分布
缩写和缩略语
cdf 累积分布函数(cumulative distribution function)
CMC 朴素蒙特卡罗(Crude Monte Carlo)
CE 交叉熵(Cross-Entropy)
EM 期望最大化(Expectation-Maximization)
GP 高斯过程(Gaussian Process)
KDE 核密度估计/估计器(Kernel Density Estimate/Estimator)
KL 库尔贝克-莱布勒(Kullback-Leibler)
KKT 卡罗需-库恩-塔克(Karush-Kuhn-Tucker)
iid 独立同分布(independent and identically distributed)
MAP 最大后验概率(Maximum A Posteriori)
MCMC 马尔可夫链蒙特卡罗(Markov Chain Monte Carlo)
MLE 极大似然估计/估计器(Maximum Likelihood Estimate/Estimator)
OOB 袋外(Out-Of-Bag)
PCA 主成分分析(Principal Component Analysis)
pdf 概率密度函数(probability density function)(离散或连续)
SVD 奇异值分解(Singular Value Decomposition)