支持中心
Tech Support
mobivision quantify
默認(rèn)輸出結(jié)果文件如下,總計16個文件,其中SAMPLEID_outs文件為軟件自動生成,無需用戶指定:
_flagdone 是任務(wù)運行成功的flag文件,會在mobivision quantify
任務(wù)完成后自動輸出;
_log 是任務(wù)運行過程中生成的日志文件;
run_analysis_cmds.txt 記錄了mobivision quantify
的完整命令行信息;
SAMPLEID_Aligned.sort.bam 記錄了reads的比對情況,并根據(jù)坐標(biāo)信息排序后輸出為bam比對文件;
SAMPLEID_Aligned.sort.bam.bai 是SAMPLEID_Aligned.sort.bam比對文件的index文件;
raw_cell_gene_matrix 是未作過濾的原始的matrix的根目錄,其包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz 三個子文件,通過統(tǒng)計bam比對文件中的比對情況獲得;
filtered_cell_gene_matrix 是經(jīng)過細胞篩選后的matrix的根目錄,其包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz三個子文件;
SAMPLEID_filtered.h5ad 是轉(zhuǎn)換為h5ad形式的filtered_cell_gene_matrix,可通過第三方軟件讀取,從而對細胞基因表達矩陣作深入分析;
SAMPLEID_Report.json 是json形式的質(zhì)控報告,可通過第三方軟件讀取并提取有效信息;
SAMPLEID_Report.html 是html形式的質(zhì)控報告,將數(shù)據(jù)進行可視化處理,便于用戶直觀判斷文庫質(zhì)量;
SAMPLEID_summary.csv 含有文庫信息內(nèi)容;result_mito_percentage.csv 是線粒體百分比信息文件,將細胞線粒體分布情況進行統(tǒng)計。
mobivision quantify
會在分析完成后,輸出bam比對文件。該bam文件記錄了文庫的詳細比對信息,用戶可以根據(jù)需求對分析結(jié)果進行溯源糾錯,或進行下游分析,例如velocity等。
GX 表示唯一比對的read所比對到的基因ID;
GN 表示唯一比對的Read所比對到的基因名;
CB 表示糾錯后的細胞標(biāo)簽;
UB 表示糾錯后的UMI分子;
NH 表示同一read比對到基因組不同位置的數(shù)目,=1表示該read可以比對到基因組唯一區(qū)域,>1表示該read比對到基因組不同點的數(shù)目。 NH是SAM文件的標(biāo)準(zhǔn)tag。
比對質(zhì)量MAPQ是bam文件中的第五列信息,對于可以比對到基因組唯一區(qū)域的read而言,MAPQ=255,即MAPQ=255代表read可以比對至基因組唯一區(qū)域。當(dāng)Read比對到基因組的區(qū)域>1時,MAPQ = -10*log10(1-1/Nmap)。
mobivision quantify
最后輸出的matrix文件有兩組,分別為raw_cell_gene_matrix和filtered_cell_gene_matrix 。兩組文件均包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz三個子文件,具體文件內(nèi)容如下:
barcodes.tsv.gz
$ cat barcodes.tsv.gz AACAACACGAAAGTGGCTTA AACAACACGAAGATTGTAAC AACAACACGAATTACCAGAA AACAACACGACGCTGAATGA AACAACACGACGGACCAACA AACAACACGACTACGTGAGG AACAACACGAGGCCACACGC AACAACACGAGGTTAGTACT AACAAGTGATCAGCGATGTC AACAAGTGATCGGTGTGAGT
barcodes.tsv.gz文件中的每一行均代表一個細胞標(biāo)簽序列。
features.tsv.gz
$ cat features.tsv.gz ENSMUSG00000102693.24933401J01Rik Gene Expression ENSMUSG00000064842.3Gm26206 Gene Expression ENSMUSG00000051951.6Xkr4Gene Expression ENSMUSG00000102851.2Gm18956 Gene Expression ENSMUSG00000103377.2Gm37180 Gene Expression ENSMUSG00000104017.2Gm37363 Gene Expression ENSMUSG00000103025.2Gm37686 Gene Expression ENSMUSG00000089699.2Gm1992Gene Expression ENSMUSG00000103201.2Gm37329 Gene Expression ENSMUSG00000103147.2Gm7341Gene Expression
features.tsv.gz文件從左至右的第一列表示基因ID,第二列為基因名,第三列是固定字符串“Gene Expression”。
matrix.mtx.gz
$ cat matrix.mtx.gz %%MatrixMarket matrix coordinate integer general % 55416 6167 20865276 54 1 4 68 1 2 114 1 2 122 1 3 123 1 2 125 1 1 137 1 8
matrix.mtx.gz文件為稀疏矩陣文件。該文件從第四行開始,從左至右,依次為基因ID序號、細胞標(biāo)簽序號、對應(yīng)細胞對應(yīng)基因所捕獲到的轉(zhuǎn)錄本數(shù)目。第三行從左至右依次為該文庫的基因數(shù)目、細胞總數(shù)、該文庫所捕獲到的轉(zhuǎn)錄本總數(shù)。該文庫的基因數(shù)目應(yīng)與features.tsv.gz文件中的基因數(shù)目一致,該文庫的細胞數(shù)目應(yīng)與barcodes.tsv.gz文件中的細胞數(shù)目一致。
mobivision quantify
分析完成后,會生成一html質(zhì)控報告,分為單雙物種兩種形式,兩種形式可分為overview、 Sample、 Cells、 Sequencing & Mapping、 Data Distribution、 UMAP Projection六部分,具體報告內(nèi)容如下:
Sample欄包含信息如下:
在單物種報告中,Cells欄左圖為Barcode Rank Plot,右側(cè)為細胞相關(guān)指標(biāo),內(nèi)容與overview欄目一致。該報告通過統(tǒng)計每個細胞標(biāo)簽對應(yīng)的UMI數(shù)目,并將細胞標(biāo)簽按照UMI數(shù)目由高到低排序,獲得細胞標(biāo)簽序號。例如UMI數(shù)目最多的細胞標(biāo)簽,序號為1,以此類推。以細胞標(biāo)簽序號作為x軸橫坐標(biāo),用對應(yīng)細胞標(biāo)簽的UMI數(shù)作為y軸縱坐標(biāo),作圖,得到Barcode Rank Plot。用戶也可通過點擊對應(yīng)欄目的右上角問號,獲得更為詳細的help信息(其他欄目也相同),如下:
Sequencing & Saturation欄左側(cè)為Sequencing Saturation Plot,右側(cè)為文庫測序信息及比對信息。用戶可通過Sequencing Saturation Plot判斷該文庫是否還有加測的必要。若當(dāng)測序飽和曲線達到平臺期或接近灰色短虛線,則暗示難以通過文庫加測來捕獲更多的基因或UMI分子。
Data Distribution以小提琴圖的形式展示了三塊數(shù)據(jù)的分布情況,分別為細胞線粒體含量、細胞UMI數(shù)、細胞基因數(shù)。以細胞線粒體含量分布情況為例,我們觀察到小提琴圖中短虛線的位置位于3%左右,即表示該文庫細胞線粒體的含量中值在3%。同樣的,根據(jù)小提琴圖的分布,我們也可以判斷該文庫中,絕大多數(shù)的細胞線粒體含量不超過5%。
UMAP Projection含有兩張可視化圖片,每個點代表一個細胞。左圖為通過UMAP降維后,利用細胞對應(yīng)的UMI數(shù)進行染色,由此可判斷每個細胞RNA含量的分布;右圖為通過UMAP降維后,用Leiden算法進行聚類分析,并用聚類的結(jié)果進行染色。
雙物種報告與單物種報告在內(nèi)容上存在略微差異。雙物種報告首行的4個指標(biāo)如上圖,同樣可根據(jù)這4個指標(biāo)判斷文庫的復(fù)雜程度和測序程度,從而判斷文庫質(zhì)量是否符合用戶預(yù)期。
同單物種報告。
雙物種報告中,Cells欄在原來單物種的基礎(chǔ)上,分別計算了來自不同物種的細胞數(shù)、基因中位數(shù)和UMI中位數(shù)。其中,Estimated Number of Cells = Estimated Number of Cells (GRCh38) + Estimated Number of Cells (GRCm39) + Number of Barcodes with >1 Cell。 Median Genes per Cell (GRCh38)統(tǒng)計了所有GRCh38來源的細胞, Median Genes per Cell (GRCm39)統(tǒng)計了算有來源于GRCm39的細胞。Median UMI Counts統(tǒng)計方式同Median Genes統(tǒng)計方式。
Sequencing & Mapping欄在原來單物種的基礎(chǔ)上,統(tǒng)計了比對至不同基因組的情況。如上,我們可以發(fā)現(xiàn)有95.88%的reads比對到了基因組上,其中,53.38%的reads比對到GRCh38基因組,42.5%比對到了GRCm39基因組(95.88% = 53.38% + 42.5%)。其他比對結(jié)果同理,在原來統(tǒng)計結(jié)果的基礎(chǔ)上,分別統(tǒng)計了來自不同基因組的比例。
Data Distribution欄分別統(tǒng)計了來自不同物種(不包含multiplet)的細胞線粒體含量、細胞UMI含量及細胞基因含量。 Cell UMI Counts圖反映了不同細胞中不同物種來源的UMI的分布。只有細胞標(biāo)簽中有超過90%的UMI來源于同一物種時,該報告才會認(rèn)為該barcode是來源于該物種的細胞。若細胞標(biāo)簽中有20%的UMI比對到了物種A,80%的UMI比對到了物種B,則判定該細胞既不屬于物種A,也不屬于物種B,需歸為Multiplet,即上圖中的灰點。一般而言,我們認(rèn)為Multiplet占比越低,該文庫存在雙胞或多胞的情況越少。
同單物種報告。