R語言data.table包是自帶包data.frame的升級版,用于數(shù)據(jù)框格式數(shù)據(jù)的處理,最大的特點(diǎn)快。包括兩個方面,一方面是寫的快,代碼簡潔,只要一行命令就可以完成諸多任務(wù),另一方面是處理快,內(nèi)部處理的步驟進(jìn)行了程序上的優(yōu)化,使用多線程,甚至很多函數(shù)是使用C寫的,大大加快數(shù)據(jù)運(yùn)行速度。因此,在對大數(shù)據(jù)處理上,使用data.table無疑具有極高的效率。這里主要介紹在基因組數(shù)據(jù)分析中可能會用到的函數(shù)。
fread
做基因組數(shù)據(jù)分析時,常常需要讀入處理大文件,這個時候我們就可以舍棄read.table,read.csv等,使用讀入速度快的fread函數(shù)
fread(input, sep="auto", sep2="auto", nrows=-1L, header="auto", na.strings="NA", file,
stringsAsFactors=FALSE, verbose=getOption("datatable.verbose"), autostart=1L,
skip=0L, select=NULL, drop=NULL, colClasses=NULL,
integer64=getOption("datatable.integer64"),# default: "integer64"
dec=if (sep!=".") "." else ",", col.names,
check.names=FALSE, encoding="unknown", quote="\"",
網(wǎng)友評論