十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團隊
量身定制 + 運營維護+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
這篇文章主要講解了“如何從FASTQ轉(zhuǎn)換得到uBAM格式”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“如何從FASTQ轉(zhuǎn)換得到uBAM格式”吧!
創(chuàng)新互聯(lián)是專業(yè)的萬山網(wǎng)站建設(shè)公司,萬山接單;提供網(wǎng)站制作、成都網(wǎng)站建設(shè),網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進行萬山網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!
二代測序平臺產(chǎn)生的數(shù)據(jù)通常用fastq格式進行存儲,fastq 存儲了我們最關(guān)心的序列和堿基質(zhì)量的信息。就測序而言,這樣的信息當然是足夠了。但是對于分析而言,還缺少了一點信息。
給你一個fastq文件,你最多可以看出來樣本名,測序平臺,測序讀長等基本信息,如果想知道測序類型(是WES, WGS 還是RNA-seq), 樣本的采樣信息,樣本的分組信息,這些信息從fastq 文件是無法得到的。這些實驗相關(guān)的數(shù)據(jù),稱之為metadata
。
uBAM
和FASTQ
相比,處理存儲了序列和堿基質(zhì)量信息之外,還可以存儲metadata
信息。
GATK4
中,數(shù)據(jù)預(yù)處理部分的示意圖如下
可以看到,對于原始數(shù)據(jù),有兩種格式,一種就是我們常見的FASTQ
; 另外一種就是uBAM
。官方更加推薦使用uBAM
格式。
如何從FASTQ
轉(zhuǎn)換得到uBAM
格式呢?我們需要借助picatd
工具。picard
提供了一個FastqToSam
功能,可以將序列轉(zhuǎn)換成ubam
格式。
基本用法如下:
java -jar picard.jar FastqToSam
F1=sampleA_R1.fastq.gz
F2=sampleA_R2.fastq.gz
PL=illumina
SM=sampleA
LB=sampleA
RG=sampleA
O=sampleA.ubam
F1
和F2
指定原始的fastq格式的數(shù)據(jù),對于雙端測序,同時指定F1和F2, 對于單端測序,指定F1就可以了。PL
代表platform, 指定測序平臺,取值包含 illumina 和 solid 兩種;SM
代表 sample name, 指定樣本名稱;LB
代表library name, 指定文庫名稱,RG
代表read group, 指定reads group的名字,這兩個參數(shù)一般和樣本名相同就可以了。
ubam
從名稱上也可以看出來,是屬于bam
格式的,所以其內(nèi)容也分成了頭部和正文兩個部分。
samtools view -H sampleA.ubam
@HD VN:1.5 SO:queryname
@RG ID:sampleA SM:sampleA LB:sampleA PL:illumina
第一行是標準的bam
文件頭部的聲明,第二行的@RG
就是轉(zhuǎn)換過程中添加的幾種metadata
信息。
samtools view sampleA.ubam
由于列數(shù)較多,這里我截取了前面幾列
每一行代表一條序列,序列ID相同的實際上是R1和R2端,從第二列的flag可以區(qū)分R1和R2端。
samtools flags 77
0x4d 77 PAIRED,UNMAP,MUNMAP,READ1
samtools flags 141
0x8d 141 PAIRED,UNMAP,MUNMAP,READ2
77對應(yīng)R1端, 141對應(yīng)R2端。
第三列的*
代表沒有比對上染色體,這就是unmapped bam
的由來。
通過FastqToSam
可以從fastq文件得到ubam
文件,picard 還提供了SamtoFastq
命令,從bam 文件得到fastq 文件
用法如下:
java -jar picard.jar SamToFastq
I=sampleA.ubam
F=sampleA_R1.fastq
F2=sampleA_R2.fastq
I
代表input, 指定輸入的bam 文件;F和F2 指定輸出的fastq 文件。
感謝各位的閱讀,以上就是“如何從FASTQ轉(zhuǎn)換得到uBAM格式”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對如何從FASTQ轉(zhuǎn)換得到uBAM格式這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!