支持中心
Tech Support
1. fastq數(shù)據(jù)不可直接合并,墨卓數(shù)據(jù)與10x數(shù)據(jù)的reads結(jié)構(gòu)并不一致,barcode白名單也不相同;
2. 細胞-基因表達矩陣(filtered-cell-gene-matrix)可進行合并,推薦使用Seurat、liger、Harmony、Scanorama等軟件進行去批次處理。可以被分為兩種情況:
1. 使用--intron excluede參數(shù)時,一條read只有比對到一個基因的外顯子區(qū)域(read有超過50%的長度比對到了外顯子區(qū)域),才會進入計數(shù),如果比對到內(nèi)含子區(qū)域或基因間區(qū),則不進入計數(shù);
2. 使用--intron included參數(shù)(此為默認參數(shù))時,一條read只有比對到一個基因的外顯子或內(nèi)含子區(qū)域(read有超過50%的長度比對到內(nèi)含子和/或外顯子區(qū)域),才會進入計數(shù),如果比對到基因間區(qū),則不進入計數(shù)。針對不同的服務器配置及參數(shù)設置,100G數(shù)據(jù)運行時長并不完全相同。以Hygon C86 7285H 32-core Processor (2.5GHz)處理器為例:
1. 針對10G測序量的樣本,增加線程數(shù)并不能顯著降低分析時間,但會大大增加內(nèi)存的使用量,因此10GB左右的文庫推薦2-8線程;
2. 針對100G測序量的樣本,當線程在24以下時,并不會顯著增加內(nèi)存的使用量,但可以顯著減少分析時間;當線程設置在24以上時,內(nèi)存使用量開始明顯增加,因此100GB左右的文庫推薦16-24線程;
3. 運行的時間和內(nèi)存消耗與文庫本身大小及設置的線程數(shù)有關(guān),當文庫大小達300GB時,我們建議分析時的內(nèi)存不少于64GB。
1. 過去試劑版本的墨卓單細胞3'轉(zhuǎn)錄組試劑盒制備的文庫,都可以使用MobiVision-v3.2進行分析。
2. MobiVision-v3.2與過去版本的MobiVision的分析結(jié)果并不完全一致。MobiVision v3.2版本在v3.0版本的基礎(chǔ)上,優(yōu)化了接頭過濾策略,從而提升比對率,分析結(jié)果會更好。1. 新增命令integrate,擴展了命令集。
2. 加入了新的cutadapt序列剪切步驟,并改進了過濾方法以確保更干凈的polyA切除。
3. 結(jié)果文件中的bam文件內(nèi)容調(diào)整,增加unmapped reads信息和新的tag,改進了mapping info及seq saturation計算。
4. 更新了h5ad文件,改為包含完整矩陣信息。
5. 增加了cell_metrics文件及total genes detected信息,并寫出于summary.csv文件中。
6. 改進了HTML報告的物種信息讀取及mapping information參數(shù)調(diào)整,使其更接近cellranger的設置。
7. 比對率更高,分析結(jié)果更好。測序飽和度反映了全部測序片段整體的復雜性和測序深度,可通過計算含有有效條形碼和UMI、且能對比至基因組唯一區(qū)域的測序片段的冗余度來獲得。Sequencing Saturation = 1 - non-duplicated_unique_mapped_reads / total_unique_mapped_reads。對于通過mobivision quantify獲得的bam文件而言, MAPQ=255代表能比對至基因組唯一比區(qū)域的測序片段。所以,total_unique_mapped_reads可通過計算MAPQ=255的測序片段中,UMI和Barcode通過糾正的測序片段數(shù)獲得; non-duplicated_unique_mapped_reads可通過計算MAPQ=255的測序片段中,UMI和Barcode不重復的測序片段數(shù)獲得; 代碼如下:
samtools view -q 255 Aligned.bam | gawk '{if (NF==16) {total_reads+=1; !umi[$19,$20]++}} END {printf("%%s,%%s\\n", total_reads, length(umi))}'mobivision mkindex命令可用于構(gòu)建reference參考基因組,且指定不同的-m參數(shù),使用不同來源的參考基因組,均會導致構(gòu)建的reference參考基因組大小并不一致,-m指定值越大,構(gòu)建的參考基因組也越大,且分析速度也會更快。-m默認值為16,若使用默認參數(shù)構(gòu)建人的reference,其參考基因組文件夾大小約為19G,構(gòu)建reference代碼如下:
mobivision mkindex -n GRCh38\mobivision quantify目前提供兩種細胞過濾的算法,分別是CR2.2和EmptyDrops (Lun等人于2019年發(fā)表在Genome biology中的算法)。如果用戶需要指定細胞數(shù)目,也可通過--cellnumber INT 來選擇含有UMI數(shù)目排列前INT個的細胞標簽作為有效細胞。
CR2.2算法(見上圖左Panel):首先將barcode按UMI數(shù)從大到小排序,設N為期望細胞數(shù),該值默認為3000, m 為期望細胞數(shù)的99分位barcode所對應的 UMI 數(shù)。所有 UMI 值超過 m/10 的barcode都被稱識別為細胞。(例如,當N=3000時,99分位的barcode為第30個barcode,其UMI值記為m,當m=20000時,m/10=2000,那么所有UMI值超過2000的barcode會被識別為細胞,圖示細胞數(shù)為9000)。
EmptyDrops算法(見上圖右Panel): 參考Lun等人于2019年發(fā)表在Genome biology中的算法(EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data)。該算法是在 CR 2.2 的基礎(chǔ)上進一步識別低RNA含量的細胞,步驟如下:
1. 初步細胞鑒定:與 CR 2.2 一致,使用基于每個barcode的總UMI數(shù)量的閾值來確定高RNA含量的細胞。
- 根據(jù)墨卓單細胞3'/5RNA的細胞捕獲率,預估細胞數(shù)量N
- 根據(jù)每個barcode的UMI數(shù)量降序排列,計算前N個barcode的UI數(shù)量的99分位數(shù),記為m。
- 如果barcode的UMI總數(shù)超過m的10%,則該barcode被視為含有細胞。
2. 細胞鑒定的細化:
- 選擇具有低UMI計數(shù)的barcode,即第一步未被鑒定為細胞的barcodes。
- 針對這些barcodes的RNA圖譜,基于采用基于基因的多項式分布,創(chuàng)建背景模型,并通過Simple Good-Turing平滑技術(shù)為未觀察到的基因提供非零的模型估計。
- 將每個未在第一步鑒定中被識別為細胞的barcode的RNA圖譜與背景模型進行比較,那些與背景模型明顯不符的barcode被識別為細胞。
V(D)J分析的主要目的是從原始測序數(shù)據(jù)中提取B細胞或T細胞的V(D)J基因序列與克隆型。這個過程通??梢赃m應不同的測序平臺和數(shù)據(jù)格式。因此,V(D)J分析流程支持多個測序平臺的FASTQ文件。
例如,在數(shù)據(jù)分析層面,V(D)J分析軟件IgBlast可以處理來自多個測序平臺的FASTQ文件,包括Illumina、華大和Ion Torrent。當然,MobiVision分析軟件也可以處理來自不同測序平臺的FASTQ文件。然而,由于每種測序平臺的讀長和質(zhì)量特征都不同,因此在進行V(D)J分析時可能需要考慮這些因素的影響。V(D)J分析流程通常可以支持單端的reads,包括只有一端reads包含有V(D)J基因信息的情況。不過,這取決于所使用的V(D)J分析軟件和具體的實驗設計。
對于單端的reads,V(D)J分析軟件通常會對reads進行一些額外的預處理和過濾,以提高V(D)J重排和克隆型識別的準確性。MobiVision可以處理單端或雙端的FASTQ文件,指定V(D)J基因在reads的哪個位置上,并且可以識別測序的reads來自哪些Barcodes,并確定V(D)J基因的重鏈與輕鏈,從而進行有效的V(D)J分析。
需要注意的是,對于只包含V(D)J基因信息的單端reads,由于缺少一些其他的序列信息如UMI,可能會影響單細胞V(D)J分析的準確性和可靠性。因此,在進行實驗設計時,應該盡量選擇適當?shù)臏y序方案,以保證能夠獲取充分的序列信息來支持VDJ分析。對于特別不常見的物種,構(gòu)建一個參考基因組序列文件可能是一個具有挑戰(zhàn)性的任務,因為缺乏可用的參考基因組或基因組注釋數(shù)據(jù)。以下是一些可能有用的方法:
在進行原始FASTQ文件的分析之前,通常需要對文件進行命名。雖然不同的實驗室和分析流程可能有不同的命名規(guī)則,但通常應該滿足以下一些基本要求:
單細胞VDJ測序數(shù)據(jù)量的合適大小取決于多種因素,包括樣本復雜度、測序深度、實驗設計等。
一般來說,單細胞V(D)J測序的目的是獲得盡可能完整的克隆型信息,因此需要足夠的測序深度來支持高質(zhì)量的重排和克隆型識別。根據(jù)經(jīng)驗,每個單細胞至少需要測序到4000條reads,以保證高質(zhì)量的VDJ分析結(jié)果。
需要注意的是,對于不同的實驗設計和研究問題,需要根據(jù)實際情況來選擇合適的測序數(shù)據(jù)量。對于一些研究問題,可能需要更深的測序深度,而對于一些其他問題,可能只需要較少的測序數(shù)據(jù)量。因此,在進行實驗設計和數(shù)據(jù)分析時,應該綜合考慮多種因素,并根據(jù)實際需要來選擇合適的測序數(shù)據(jù)量。Fraction Reads in Cells是單細胞測序數(shù)據(jù)分析中的一個關(guān)鍵指標,用于評估測序數(shù)據(jù)的質(zhì)量和單細胞捕獲的效率。它表示在所有測序數(shù)據(jù)中,能夠被分配到單個細胞的reads所占的比例。通常來說,F(xiàn)raction Reads in Cells越高,代表單細胞測序的效果越好,樣本中的單個細胞被捕獲的概率越高。
當Fraction Reads in Cells比例比較低時,可能意味著以下一些情況:
值得注意的是,F(xiàn)raction Reads in Cells的理想值是依賴于實驗設計和測序技術(shù)等因素,并不存在一個固定的閾值。在進行單細胞測序數(shù)據(jù)分析時,需要結(jié)合其他指標和分析結(jié)果來綜合評估數(shù)據(jù)質(zhì)量和單細胞捕獲效率。
Paired Clonotype Diversity是單細胞VDJ測序數(shù)據(jù)中用來評估克隆型多樣性的一個指標。它基于同一細胞中的配對的重鏈和輕鏈VDJ重排信息,計算出同一細胞中的克隆型數(shù)量,并對不同細胞的克隆型進行聚類,得到每個聚類中包含的不同克隆型數(shù)量。Paired Clonotype Diversity指標即為不同聚類中克隆型數(shù)量的平均值,通常用來描述單個細胞內(nèi)的克隆型多樣性。
Paired Clonotype Diversity計算的具體過程如下:
MobiVisoion vdj的命名無需固定一種方式命名。從上述的命名規(guī)則中,我們可以看到其ReadType有四種命名形式,Suffix也有4種命名形式,目前MobiVision可以支持16種命名形式。用戶在二代測序結(jié)束下機后獲取的的fastq文件,只要命名合理,一定程度可以直接進行MobiVision vdj分析,無需對樣本名改名。