5.2 SPSS函数
在数据处理和统计分析过程中,仅仅利用加、减、乘、除运算符完成众多复杂的统计分析的计算工作,显然是不够的。为此,SPSS提供了一百多个常用函数,能够充分满足实际统计分析的需要。
SPSS函数是用于完成某种特定计算的SPSS程序段。使用SPSS函数,只须直接调用函数名,并输入参数即可返回函数值。通常,参数可以为常量,也可以是数据文件中的变量。函数值一般为数值型,也可能是字符型,或者逻辑型等。例如,函数Length(“ABCD”)计算字符串“ABCD”的字符个数,参数类型是字符型常量或变量,返回值为字符串长度,为数值型。
调用函数格式:函数名(参数1,参数2,…)
SPSS规定了每一个函数的参数个数和参数类型,如果给出不符合要求的参数信息,系统会给出出错信息。调用之前,应该清楚调用函数的参数属性以及返回值的类型。
SPSS函数分为八个大类:算术函数(Arithmetic functions)、统计函数(Statistical functions)、字符串函数(String functions)、日期和时间函数(Date and time functions)、分布函数(Distribution functions)、随机变量函数(Random variable functions)、缺失值函数(Missing value functions)和其他函数。
SPSS函数共计一百多种,若要了解函数的功能及其调用方法,可以通过帮助菜单的函数索引操作进行查找。操作方法:在SPSS主界面,选择菜单“Help”→“Topics”命令,在帮助系统的“索引”框中,输入相关函数信息,查找即可。
5.2.1 算术函数(Arithmetic Functions)
◆ Abs(x) x的绝对值。如Abs(-2.8)=2.8。
◆ Arsin(x) 反正弦函数。
◆ Artan(x) 反正切函数。
◆ Cos(x) 余弦函数。
◆ Exp(x) e的x次幂。
◆ Ln(x) 以e为底x的自然对数。
◆ Lg10(x) 以10为底x的对数。
◆ Mod(m,n) m/n的余数。例如,Mod(10,3)=1,Mod(6,2)=0。
◆ Rnd(x) 四舍五入的整数部分。例如,Rnd(-2.589)=-3。
◆ Sin(x) 正弦函数。
◆ Sqrt(x) x的平方根。
◆ Trunc(x) 截尾函数。例如,Trunc(-2.589)= -2。
5.2.2 统计函数(Statistical Functions)
◆ Cfvar(x1,x2,…,xn) 变异系数。变异系数的定义Cfvar为:
例如,Cfvar(24631)=0.60011。
◆ Max(x1,x2,…,xn) 给出x1,x2,…,xn的最大值。此函数需要2个或2个以上的参数。例如, Max(4,-5,6)=6。
◆ Mean(x1,x2,…,xn) 平均值函数。计算x1,x2,…,xn参数的有效值的算术平均值。此函数需要2个或2个以上的参数。
◆ Min(x1,x2,…,xn) 给出x1,x2,…,xn的最小值。此函数需要2个或2个以上的参数。例如, Min(4,-5,6)= -5。
◆ Sd(x1,x2,…,xn) x1,x2,…,xn的样本标准差。此函数需要2个或2个以上的参数。样本标准差的定义为:
例如,Sd(2,4,6,3,1)=1.923538。
◆ Sum(x1,x2,…,xn) 求和函数。此函数需要2个或2个以上的参数。
◆ Variance(x1,x2,…,xn) 方差函数。此函数需要2个或2个以上的参数。
5.2.3 字符串函数(String Functions)
◆ Concat(s1, s2, …) 合并字符串函数。例如,Concat("pro", "bability")=probability。
◆ Index(s1, s2) 求s2在s1中第一次出现时字符所在的位置。如果没有出现,则结果为0。例如,lndex("abcdef", "cde")=3。
◆ Lower(s) 小写转换函数。将s中的所有字符转换成小写。例如,Lower("CDEF")=cdef。
◆ Lpad(s,n) 左填充函数。在s的左侧填充空格,使字符串的长度为n,n为1~255之间的正整数。例如,Lpad("ABCD", 6)=" ABCD"。
◆ Ltrim(s) 左修整函数。去除s左侧的前导空格。例如,Ltrim(" ABCD")=ABCD。
◆ Length(s) 长度函数。计算字符串的长度,返回数值型。例如,Length("ABCDE")=5。
◆ Rpad(s,n) 右填充函数。在s的右侧填充空格,使字符串的长度为n,n为1~255之间的正整数。例如,Rpad("ABCD", 6)="ABCD "。
◆ Ltrim(s) 右修整函数。去除s右侧的空格。例如,Ltrim("ABCD ")=ABCD。
◆ Substr(s, n)子串函数。从s的第n个位置开始到结尾的字符子串。例如, Substr("ABCDEF", 3) = CDEF。
◆ Upcas(s) 大写转换函数。将字符串s中的小写字母转换成大写字母。例如, Upcas("abcDE") = ABCDE。
5.2.4 日期和时间函数(Date and Time Functions)
◆ Ctime.Days(t) 计算日期型变量值为t的天数。例如,Ctime.days(Jul 1993)=150010。
◆ Ctime.Hours(t)计算日期型变量值为t的小时数。例如,Ctime.house(Jul 1993)=3600240。
◆ Date.Dmy(d,m,y) 将日期型变量赋值为y年,m月,d日。
◆ Date.Yrday(y,d)将数值型数据转换成显示天数d、年份y的日期型。例如, Date.yrday(2005,567) = 07/21/2006。
◆ Date.Wkyr(w,y) 将数值型数据转化为显示星期数w、年份y的日期型值。
◆ Xdate.Jday(d)计算日期型参数d所在年份的天数(1~366)。例如, Xdate.Jday(07/21/2006) = 202。
◆ Xdate.Mday(d)计算日期型参数d所在月份的天数(1~31)。例如, Xdate.Mday(10/31/2006) = 31。
◆ Xdate.Minute(d) 计算日期型参数d所在小时的分钟数(0~59)。
◆ Xdate.Week(d)计算日期型参数d所在年份的周数(1~52)。例如, Xdate.Jday(07/21/2006) = 29。
5.2.5 累计分布函数(Cumulative Distribution Functions)
累计分布函数也称分布函数,分布函数的函数值表示了随机变量在给定点之前所在区间取值的概率,是描述随机变量的重要手段。
SPSS系统提供了常用随机变量的分布函数。累计分布函数的定义格式为:Cdf.Distrname,其中Cdf为Cumulative distribution functions的简写形式,Distrname为分布的名称。
下面列出常用的分布函数:
◆ Cdf.BernouIIi(x, prob) 参数为prob的Bernoulli分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Beta(x, shape1, shape2) 参数为shape1、shape2的β分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Binom(x, n, prob) 参数为n、prob的二项分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Bvnor(x, y, corr) 相关系数为corr的标准二维正态分布的联合分布函数,计算服从该分布的两随机变量分别小于等于x和y的累计概率值。
◆ Cdf.Cauchy(x, Ioc, scaIe) 位置参数为loc,比例参数为scale的Cauchy分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Chisq(x, df) 自由度为df的x2分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Exp(x, scaIe) 参数为shape的指数分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.F(x, df1, df2) 自由度为df1、df2的F分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Gamma(quant, shape, scaIe) 形状参数为shape、比例参数为scale的Γ分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Geom(x, prob) 参数为prob的几何分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Hyper(x, totaI, sampIe, hits) 总数为total,样本数为sample,命中数为hits的超几何分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
超几何分布经常出现在产品的抽样调查中。设有total件产品,其中有hits件不合格品,随机地从total件中抽取sample件,这sample件中不合格品的个数服从超几何分布。例如,产品总数为10件,有5件不合格品,从中抽取3件,抽取到小于等于2件不合格品的概率:Cdf.Hyper (2,10,3,5) = 0.91667。
◆ Cdf.LapIace(x, mean, scaIe) 均值为mean、比例参数为scale的Laplace分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Logistic(x, mean, scaIe) 均值为mean、比例参数为scale的Logistic分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.LnormaI(x, a, b) 参数为a、b的对数正态分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.NormaI(x, mean, sd) 参数为mean、sd的正态分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Poisson(x, mean) 均值为mean的Poisson分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Sranger(x, a, b) 参数为a、b的Student极差统计量的分布函数,计算服从该统计量小于等于x的累计概率值。
◆ Cdf.T(x, df) 自由度为df的Student t分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.Uniform(x, min, max) 区间[min, max]上的均匀分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Cdf.WeibuII(x, a, b) 参数为a、b的Weibull分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Ncdf.Beta(x, shape1, shape2, nc) 参数为shape1、shape2,非中心值为nc的非中心β分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Ncdf.Chisq(x, df, nc) 自由度为df、非中心值为nc的非中心x2分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Ncdf.F(x, df1, df2, nc) 自由度为df1、df2,非中心值为nc的非中心F分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
◆ Ncdf.T(x, df, nc) 自由度为df,非中心值为nc的非中心Student t分布的分布函数,计算服从该分布的随机变量小于等于x的累计概率值。
5.2.6 逆分布函数(lnverse Distribution Functions)
逆分布函数是累计分布函数的反函数。给定随机变量的概率值p,求xp,使得F(x<=xp)=p, xp也称p下分位点,或者p临界值。在统计推断中,经常会遇到求解分位点的问题。SPSS提供了统计分析中常用的常用分布的逆分布函数。
逆分布函数的名称格式为:ldf.Distrname(p,参数1,参数2,…),其中ldf为lnverse distribution functions的简写形式,Distrname为分布的名称,p为给定概率值,参数1、参数2为相应分布要求的参数值。
◆ Idf.Beta(p, shape1, shape2) 参数为shape1、shape2的β分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.Cauchy(p, Ioc, scaIe) 位置参数为loc,比例参数为scale的Cauchy分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.Chisq(p, df) 自由度为df的x2分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.Exp(p, scaIe) 参数为shape的指数分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.F(p, df1, df2) 自由度为df1、df2的F分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.Gamma(quant, shape, scaIe) 形状参数为shape、比例参数为scale的Γ分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.LapIace(p, mean, scaIe) 均值为mean、比例参数为scale的Laplace分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.Logistic(p, mean, scaIe) 均值为mean、比例参数为scale的Logistic分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.LnormaI(p, a, b) 参数为a、b的对数正态分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.NormaI(p, mean, sd) 参数为mean、sd的正态分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.Sranger(p, a, b) 参数为a、b的Student极差统计量的逆分布函数,计算服从该统计量小于等于x的累计概率值。
◆ Idf.T(p, df) 自由度为df的Student t分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.Uniform(p, min, max) 区间[min, max]上的均匀分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Idf.WeibuII(p, a, b) 参数为a、b的Weibull分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
◆ Probit(p) 标准正态分布的逆分布函数,计算服从该分布概率为p的逆分布函数值。
5.2.7 随机变量函数(Random Variable Functions)
利用随机变量函数产生服从指定分布的伪随机数或伪随机数序列。函数自变量为随机变量的参数,函数值都为数值型,随机变量函数的格式为:Rv.Distrname(参数1,参数2,…),其中Distrname为指定随机变量分布名。
下面列出常用的随机变量函数。
◆ Rv.BernouIIi(prob) 参数为prob的Bernoulli分布随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Beta(shape1, shape2) 参数为shape1、shape2的β分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Binom(n, prob) 参数为n、prob的二项分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Cauchy(Ioc, scaIe) 位置参数为loc,比例参数为scale的Cauchy分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Chisq(df) 自由度为df的x2分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Exp(scaIe) 参数为shape的指数分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.F(df1, df2) 自由度为df1、df2的F分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Gamma(quant, shape, scaIe) 形状参数为shape、比例参数为scale的Γ分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Geom(prob) 参数为prob的几何分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Hyper(totaI, sampIe, hits) 总数为total,样本数为sample,命中数为hits的超几何分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.LapIace(mean, scaIe) 均值为mean、比例参数为scale的Laplace分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Logistic(mean, scaIe) 均值为mean、比例参数为scale的Logistic分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.LnormaI(a, b) 参数为a、b的对数正态分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.NormaI(mean, sd) 参数为mean、sd的正态分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Poisson(mean) 均值为mean的Poisson分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.T(df) 自由度为df的Student t分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.Uniform(min, max) 区间[min, max]上的均匀分布的随机变量函数,产生服从该分布的随机变量值。
◆ Rv.WeibuII(a, b) 参数为a、b的Weibull分布的随机变量函数,产生服从该分布的随机变量值。
5.2.8 概率密度函数(Probability Density Function)
概率密度函数的定义格式:Pdf.Distrname(x,参数1,参数2,…),其中Distrname为指定分布的名称,x为自变量,即随机变量的取值,参数1、参数2是相应分布要求的参数值。
下面列出常用随机变量的概率密度函数:
◆ Pdf.BernouIIi(x, prob) 参数为prob的Bernoulli分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Beta(x, shape1, shape2) 参数为shape1、shape2的β分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Binom(x, n, prob) 参数为n、prob的二项分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Bvnor(x, y, corr) 相关系数为corr的标准二维正态分布的联合概率密度函数,计算服从该分布的两随机变量分别小于等于x和y的累计概率值。
◆ Pdf.Cauchy(x, Ioc, scaIe) 位置参数为loc,比例参数为scale的Cauchy分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Chisq(x, df) 自由度为df的x2分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Exp(x, scaIe) 参数为shape的指数分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.F(x, df1, df2) 自由度为df1、df2的F分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Gamma(quant, shape, scaIe) 形状参数为shape、比例参数为scale的Γ分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Geom(x, prob) 参数为prob的几何分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Hyper(x, totaI, sampIe, hits) 总数为total,样本数为sample,命中数为hits的超几何分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.LapIace(x, mean, scaIe) 均值为mean、比例参数为scale的Laplace分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Logistic(x, mean, scaIe) 均值为mean、比例参数为scale的Logistic分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.LnormaI(x, a, b) 参数为a、b的对数正态分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.NormaI(x, mean, sd) 参数为mean、sd的正态分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Poisson(x, mean) 均值为mean的Poisson分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Sranger(x, a, b) 参数为a、b的Student极差统计量的概率密度函数,计算服从该统计量小于等于x的累计概率值。
◆ Pdf.T(x, df) 自由度为df的Student t分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.Uniform(x, min, max) 区间[min, max]上的均匀分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Pdf.WeibuII(x, a, b) 参数为a、b的Weibull分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Npdf.Beta(x, shape1, shape2, nc) 参数为shape1、shape2,非中心值为nc的非中心β分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Npdf.Chisq(x, df, nc) 自由度为df、非中心值为nc的非中心x2分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Npdf.F(x, df1, df2, nc) 自由度为df1、df2,非中心值为nc的非中心F分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
◆ Npdf.T(x, df, nc) 自由度为df,非中心值为nc的非中心Student t分布的概率密度函数,计算服从该分布的随机变量在x处的概率密度值。
5.2.9 尾部概率函数(Tail Probability Function)
统计分析方法中,有时需要根据统计量在某点概率值的大小对检验问题作出判断。为此,SPSS提供了两个尾部概率函数。定义格式为:Sig.Distrname(x,参数1,参数2,…),其中Distrname为指定分布的名称,x为自变量,即随机变量的取值,参数1、参数2是相应分布要求的参数值。
◆ Sig.Chisq(x, df) 自由度为分别为df的x2分布的单侧尾部累计概率,计算该分布大于x的概率值。
◆ Sig.F(x, df1, df2) 自由度分别为df1、df2的F分布的单侧尾部累计概率,计算该分布大于x的概率值。
5.2.10 缺失值函数(Missing Value Functions)
缺失值函数有3种:
◆ Nmiss(v1, v2, …) 计算变量v1,v2等变量的缺失值个数。要求变量类型必须是数值型。
◆ Mmissing(v) 判断变量v是否存在缺失值。函数返回值为逻辑型。这里的变量v是工作数据文件的数值型变量名或者表达式。文件如果变量含有缺失值,函数值为1,否则函数值为0。
◆ Sysmis(v):变量为系统缺失值时,结果为1;否则,结果为0。变量v必须是工作数据文件的数值型变量名。