支持中心
Tech Support
MobiNova平臺產(chǎn)生的VDJ文庫示意圖如下:
從上面的VDJ結(jié)構(gòu)可知,其Read1的5’端均為細(xì)胞標(biāo)簽序列(20bp)和UMI序列(10bp)。為了確定Read1所攜帶的細(xì)胞標(biāo)簽序列是否正確,MobiVision會將測序片段中的細(xì)胞標(biāo)簽序列和已知白名單中的細(xì)胞標(biāo)簽序列進(jìn)行比對。目前MobiCube 高通量單細(xì)胞 V(D)J v1.0試劑盒提供近3,000,000種細(xì)胞標(biāo)簽序列。符合以下條件的測序片段將被保留:
通過的測序片段,Read1僅保留糾正后的細(xì)胞標(biāo)簽序列和UMI序列,Read2在該步驟暫不做處理。
對于糾正細(xì)胞標(biāo)簽序列后的fastq數(shù)據(jù)中
將inner primers比對到fastq插入片段中,然后計算來自于TCR的inner primers比對reads數(shù)占所有inner primers比對reads數(shù)的比例,如果該比例大于80%,則認(rèn)為該文庫是TCR類型的文庫;該比例小于20%,則認(rèn)為該文庫是BCR類型的文庫,否則是ALL類型(BCR+TCR類型)的文庫。
為了保證拼接的有效性和速度,我們將所有reads比對到VDJ 的reference序列中,剔除未必對上的reads。僅對比對上的reads用于后續(xù)的拼接分析。
收集來自同一個Barcode的reads,組成一套fastq文件,利用De Brujin算法對短片段進(jìn)行轉(zhuǎn)錄本拼接,最終獲得全長信息(contig)。contig的每個堿基都被賦予堿基質(zhì)量值,UMI和reads個數(shù)也被記錄。針對所有的barcodes,執(zhí)行同樣的操作,就可以獲取每個barcode中的contig信息。
VDJ注釋的目的是找到一個具有生物學(xué)功能,有效的蛋白受體/產(chǎn)物,需要滿足以下條件:1.結(jié)構(gòu)完整,即是全長序列; 2.起始于密碼子,VJ區(qū)域沒有終止密碼子; 3. J基因的最后一個密碼子-V基因的起始密碼子/3是整數(shù); 4.序列中包含CDR3區(qū)域,并且V-J跨越的區(qū)域長度合理,避免結(jié)構(gòu)異常; 5.VJ(reference的片段總長)-len(最后一個密碼子-V的第一個密碼子)在-25-25個氨基酸之間,IGH在-55-25氨基酸之間。
CDR3的確定方法:尋找CDR3左右側(cè)保守的motif序列,起始于C氨基酸,5-27個氨基酸長度,不含終止密碼子。若找到不止一個CDR3序列,得分最高的被當(dāng)作是CDR3區(qū)域,如果得分一樣,則選擇較長的CDR3序列。
Barcode的過濾要基于該Barcode中是否存在有效的contig,存在有效的contig才會認(rèn)為該細(xì)胞為真的細(xì)胞而不是空胞或者雙胞。一般需滿足以下條件篩選表達(dá)V(D)J基因的細(xì)胞。只有T或B細(xì)胞才會有vdj重排,產(chǎn)生全長轉(zhuǎn)錄本,過濾的Barcode要有足夠的UMI count支持,避免背景mRNA干擾。此外,UMIs要有足夠的reads支持,避免文庫污染和Sample index跳躍。
細(xì)胞Barcode分組形成不同的克隆型,即找到有相同或相似的配對受體序列,將細(xì)胞barcode分組成不同的克隆型。
克隆型的結(jié)果包含以下內(nèi)容,可用于后續(xù)下游分析。
1.clonotype_id
2.clonetype id frequency 對應(yīng)的細(xì)胞Barcode的數(shù)量
3.proportion 對應(yīng)的細(xì)胞Barcode占比
4.CDR3_aa CDR3的氨基酸序列
5.CDR3_nt CDR3的核苷酸序列
mobivision vdj在運(yùn)行時,會對整個文庫的原始數(shù)據(jù)及分析結(jié)果進(jìn)行統(tǒng)計,最終生成質(zhì)控報告。該報告是對整個文庫的如實反饋,旨在幫助用戶從宏觀角度了解文庫原始數(shù)據(jù)質(zhì)量及分析結(jié)果質(zhì)量,并未作任何數(shù)據(jù)上的篩選或過濾。如有需要,用戶可根據(jù)質(zhì)控報告結(jié)果,對文庫結(jié)果進(jìn)行調(diào)整后,再開始下游分析。