R語言基因組數(shù)據(jù)分析可能會用到的data.table函數(shù)整理

發(fā)布時間：2017年03月25日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

R語言data.table包是自帶包data.frame的升級版，用于數(shù)據(jù)框格式數(shù)據(jù)的處理，最大的特點(diǎn)快。包括兩個方面，一方面是寫的快，代碼簡潔，只要一行命令就可以完成諸多任務(wù)，另一方面是處理快，內(nèi)部處理的步驟進(jìn)行了程序上的優(yōu)化，使用多線程，甚至很多函數(shù)是使用C寫的，大大加快數(shù)據(jù)運(yùn)行速度。因此，在對大數(shù)據(jù)處理上，使用data.table無疑具有極高的效率。這里主要介紹在基因組數(shù)據(jù)分析中可能會用到的函數(shù)。

fread

做基因組數(shù)據(jù)分析時，常常需要讀入處理大文件，這個時候我們就可以舍棄read.table，read.csv等，使用讀入速度快的fread函數(shù)

    fread(input, sep="auto", sep2="auto", nrows=-1L, header="auto", na.strings="NA", file,
        stringsAsFactors=FALSE, verbose=getOption("datatable.verbose"), autostart=1L,
        skip=0L, select=NULL, drop=NULL, colClasses=NULL,
        integer64=getOption("datatable.integer64"),# default: "integer64"
        dec=if (sep!=".") "." else ",", col.names,
        check.names=FALSE, encoding="unknown", quote="\"",

分類導(dǎo)航

R語言基因組數(shù)據(jù)分析可能會用到的data.table函數(shù)整理

網(wǎng)友評論

更多精彩分享