-
table(条件,useNA="ifany")表示可以显示缺失值,该函数还可以对两个变量进行总结,返回结果是一个二维的列表
查看全部 -
str(数据框)以一种简洁的方式总结数据,包括变量数,记录数,变量名称及其类型,以及前面几个取值
查看全部 -
head(数据框)表示看该数据框的前六行内容,head(数据框,10)表示看该数据框的前10行内容;tail表示看后六行内容
summary(数据框)返回每个变量的最小值,最大值,25%的分位点,75%的分位点,中位数,均值,以及是否存在缺失值(如果有,有几个),该函数使得我们对数据分布有一个整体把握
查看全部 -
关于排序的两个函数:1)sort:对向量进行排序,返回排好序的内容;2)order:返回排好序的内容的下标/可有多个排序标准
sort默认升序排列,若要降序,添加decreasing=TRUE
查看全部 -
na.rm=TRUE的含义是在处理参数时不要包括缺失值
查看全部 -
split(向量/列表/数据框,因子/因子列表)可以根据因子或因子列表将向量或其他对象分组,通常与lapply一起使用,可对列表中的元素进行运算
查看全部 -
tapply(向量,因子/因子列表,函数名)可以对向量的子集进行操作,其中向量的参数量为n,每个参数的元素个数为k,要与gl()相对应
gl(n,k)产生因子水平的函数,其中n表示有几个水平,k表示每个水平下有几个元素
查看全部 -
mapply(函数名,数据,函数相关的参数)是lapply的多元版本,对列表(如正态分布)进行操作
rep(a,b)意思是b个a
rnorm(n,mean,std)表示从均值为mean,标准差为std的正态分布中抽取n个数据
查看全部 -
apply(数组,维度,函数名)沿着数组的某一维度处理数据,例如将函数用于矩阵的行或列求和sum。
rnorm(100)意思是随机从正态分布的总体里抽取100个数据
quantile()是求数据的百分位点,probs是对quantile进行限定,求多少的百分位点
查看全部 -
function()代表匿名函数
sapply()能把lappy的结果进行化解,例如把列表化解成向量,使结果更加清晰:1)当结果列表元素长度均为1 ,返回向量;2)当长度相同且大于1,返回矩阵。反之,返回结果和lapply一样
查看全部 -
循环函数:for/while()语句(需要多行代码),此外还有“一句话”函数(一行代码即可)
lapply(参数):可以循环处理列表中的每一个元素,参数可以是列表,函数名等,其结果总是返回一个列表
求平均mean(),runif()代表从一个均匀分布的总体里抽取若干个数出来,该函数默认从0到1进行抽取
查看全部 -
构建子集所用符号,处理缺失值,向量化操作
查看全部 -
rep函数中的两个变量(a,b)含义:把a重复b次
建立两个矩阵(x,y),进行运算(对应元素)
真正的矩阵乘法:x%*%y
查看全部 -
向量化操作:输入两个向量(x,y),并对其进行运算(对应元素)
查看全部 -
得到向量中非缺失值的元素:x[!is.na(x)],!代表取反
选取两个向量(x,y)中对应位置都不是缺失值的元素:用complete.cases()函数给z赋值,得到逻辑向量,然后用x[z]和y[z]得到最终结果
看数据集长什么样用head()函数,数据集中每一行叫做一次记录,每一列叫做一个变量,通常会选择在所有变量中都没有缺失值的记录,这时可用complete.cases(数据集)函数给z(任一字母)赋值
查看全部
举报