MobiVision V(D)J算法介紹

算法概覽

Barcode和UMI矯正

MobiNova平臺產(chǎn)生的VDJ文庫示意圖如下：

從上面的VDJ結(jié)構(gòu)可知，其Read1的5’端均為細(xì)胞標(biāo)簽序列(20bp)和UMI序列（10bp）。為了確定Read1所攜帶的細(xì)胞標(biāo)簽序列是否正確，MobiVision會將測序片段中的細(xì)胞標(biāo)簽序列和已知白名單中的細(xì)胞標(biāo)簽序列進(jìn)行比對。目前MobiCube 高通量單細(xì)胞 V(D)J v1.0試劑盒提供近3,000,000種細(xì)胞標(biāo)簽序列。符合以下條件的測序片段將被保留：

Read1的細(xì)胞標(biāo)簽存在于白名單中；
Read1的細(xì)胞標(biāo)簽不存在于白名單中，但與白名單中的細(xì)胞標(biāo)簽最小漢明距離<=2，并根據(jù)白名單中的細(xì)胞標(biāo)簽，對Read1中的細(xì)胞標(biāo)簽進(jìn)行糾正。

通過的測序片段，Read1僅保留糾正后的細(xì)胞標(biāo)簽序列和UMI序列，Read2在該步驟暫不做處理。

測序數(shù)據(jù)質(zhì)控和去除接頭

對于糾正細(xì)胞標(biāo)簽序列后的fastq數(shù)據(jù)中

Read1片段5‘端可能存在13bp的TSO序列，3’端可能存在polyA序列。
Read2片段5'端可能存在polyT序列，3’端可能存在13bp的TSO反向互補(bǔ)序列。
TSO、polyA、polyT等序列的存在，會有效降低文庫的比對率，因此在比對前，需要將插入片段兩端可能存在的TSO序列和poly A序列去除。
去除接頭序列及poly A和poly T可能導(dǎo)致保留下來的插入DNA片段過短，而過短的DNA片段會增加錯配的概率，因此，在完成接頭序列去除后，還需要過濾除去插入DNA片段小于30bp的Read。

檢查VDJ基因鏈類型

將inner primers比對到fastq插入片段中，然后計算來自于TCR的inner primers比對reads數(shù)占所有inner primers比對reads數(shù)的比例，如果該比例大于80%，則認(rèn)為該文庫是TCR類型的文庫；該比例小于20%，則認(rèn)為該文庫是BCR類型的文庫，否則是ALL類型(BCR+TCR類型)的文庫。

VDJ基因序列過濾

為了保證拼接的有效性和速度，我們將所有reads比對到VDJ 的reference序列中，剔除未必對上的reads。僅對比對上的reads用于后續(xù)的拼接分析。

組裝contig

收集來自同一個Barcode的reads，組成一套fastq文件，利用De Brujin算法對短片段進(jìn)行轉(zhuǎn)錄本拼接，最終獲得全長信息（contig）。contig的每個堿基都被賦予堿基質(zhì)量值，UMI和reads個數(shù)也被記錄。針對所有的barcodes，執(zhí)行同樣的操作，就可以獲取每個barcode中的contig信息。

注釋V(D)J

VDJ注釋的目的是找到一個具有生物學(xué)功能，有效的蛋白受體/產(chǎn)物，需要滿足以下條件：1.結(jié)構(gòu)完整，即是全長序列； 2.起始于密碼子，VJ區(qū)域沒有終止密碼子； 3. J基因的最后一個密碼子-V基因的起始密碼子/3是整數(shù)； 4.序列中包含CDR3區(qū)域，并且V-J跨越的區(qū)域長度合理，避免結(jié)構(gòu)異常； 5.VJ(reference的片段總長)-len(最后一個密碼子-V的第一個密碼子)在-25-25個氨基酸之間，IGH在-55-25氨基酸之間。

CDR3的確定方法：尋找CDR3左右側(cè)保守的motif序列，起始于C氨基酸，5-27個氨基酸長度，不含終止密碼子。若找到不止一個CDR3序列，得分最高的被當(dāng)作是CDR3區(qū)域，如果得分一樣，則選擇較長的CDR3序列。

Barcode的判斷

Barcode的過濾要基于該Barcode中是否存在有效的contig，存在有效的contig才會認(rèn)為該細(xì)胞為真的細(xì)胞而不是空胞或者雙胞。一般需滿足以下條件篩選表達(dá)V(D)J基因的細(xì)胞。只有T或B細(xì)胞才會有vdj重排，產(chǎn)生全長轉(zhuǎn)錄本，過濾的Barcode要有足夠的UMI count支持，避免背景mRNA干擾。此外，UMIs要有足夠的reads支持，避免文庫污染和Sample index跳躍。

確定克隆型

細(xì)胞Barcode分組形成不同的克隆型，即找到有相同或相似的配對受體序列，將細(xì)胞barcode分組成不同的克隆型。

克隆型的結(jié)果包含以下內(nèi)容，可用于后續(xù)下游分析。

1.clonotype_id

2.clonetype id frequency 對應(yīng)的細(xì)胞Barcode的數(shù)量

3.proportion 對應(yīng)的細(xì)胞Barcode占比

4.CDR3_aa CDR3的氨基酸序列

5.CDR3_nt CDR3的核苷酸序列

質(zhì)控報告

mobivision vdj在運(yùn)行時，會對整個文庫的原始數(shù)據(jù)及分析結(jié)果進(jìn)行統(tǒng)計，最終生成質(zhì)控報告。該報告是對整個文庫的如實反饋，旨在幫助用戶從宏觀角度了解文庫原始數(shù)據(jù)質(zhì)量及分析結(jié)果質(zhì)量，并未作任何數(shù)據(jù)上的篩選或過濾。如有需要，用戶可根據(jù)質(zhì)控報告結(jié)果，對文庫結(jié)果進(jìn)行調(diào)整后，再開始下游分析。

亚洲午夜无码久久久久,亚洲妇女自偷自偷图片,女女互揉吃奶揉到高潮视频,国语成本人片免费AV无码

支持中心