如何选择合适的转录本进行过表达研究

来源: 上海吉凯基因化学技术有限公司   2019-11-15   访问量:871评论(0)

一个编码基因往往有多种转录本(Transcript Variant),当我们想研究一个编码基因的GOF(Gain of function)时,通常的做法是将编码基因的编码区(CDS)构建到质粒或者病毒载体中,进而导入细胞内是基因的表达量增加。那么问题来了?当一个基因有多个转录本的时候,我选择哪个转录本来研究呢?今天呢,小编就给大家介绍几个数据库,帮助大家更好的选择具体的转录本。


首先我们说明下为什么一个基因会有多个转录本?最可能的四种原因如下,一个基因的多个转录本产生通常是其中的一种原因或者几种原因共同发生导致。

(1)alternative splicing

选择性剪接(Alternative splicing)是基因的一种表现方式。生物的基因序列中,包含了内含子(intron)与外显子(exon),两者交互穿插,组成基因。其中内含子并不表现,外显子才是能够转录成mRNA(之后再进一步转译成蛋白质)的片段。而选择性剪接便是利用这样的特性,将同一基因中的外显子以不同的组合方式来表现,制造出不同的蛋白质。比如基因Gene ID: 2668NM_001190468.1转录本和NM_199231.2转录本

(2)alternative promoter usage

同一个基因可能由不同的启动子,不同的启动子导致产生不同的蛋白质,比如Gene ID: 2668NM_000514.4转录本;

(3)alternative initiation

同一条mRNA中使用不同的翻译起始密码子,通常情况下产生出仅仅在N端有差别的蛋白质序列,比如基因Gene ID: 2668NM_001278098.1转录本

(4)ribosomal frameshifting

一种翻译重编码机制,其导致核糖体改变其对遗传密码的读取,产生不是由mRNA直接编码的蛋白质,或者两种甚至更多种不同的蛋白质;

更多原因如下,这些原因一个或者多个都可能导致一个基因产生不同的转录本。

RNA editing

Selenocysteine

Ribosomal skipping

Chromosomal rearrangement

Polymorphism

Pyrrolysine

Triplet repeat expansion

RNA translational shunting

RNA termination-reinitiation

RNA suppression of termination

对于上述列出来的多种原因大家如有疑问,欢迎文末留言交流。

弄清楚了一个基因有不同转录本的原因,接下来我们就说说到底怎么选择转录本进行研究。小编列举如下几个数据库供参考。

1NCBI

NCBI中有两个地方可以参考,一个是NCBI Reference Sequences (RefSeq)区域;一个是每个转录本的Nucleotide界面。

1NCBI Reference Sequences (RefSeq)

有些基因NCBI明确会告知哪个主要转录本,举例human HIF1A(hypoxia inducible factor 1 subunit alpha),在NCBI Reference Sequences (RefSeq)区域,对NM_001530.4转录本有这样的描述:This variant (1) represents the predominant transcript, and encodes isoform 1。需要说明的是,在该位置很少有“predominant transcript”的说明。


2Nucleotide database



2 MANE

MANEMatched Annotation from the NCBI and EMBL-EBI的缩写,这个数据库收录了人类编码基因的一个“representative”转录本。

UniProt的使命是为科学界提供全面,高质量和免费获取的蛋白质序列和功能信息资源。对于人类基因,当检索某一个具体的基因时,在结果页面的Sequence区域,通常会选择某一个转录本编码的蛋白质(isoform)当做是'canonical'序列。而这个'canonical'序列可以说是100%会对应到NCBI RefSeq 中某一个转录本。UniProt对于'canonical'序列有严格的标准,必须满足如下四种标准里边的至少一个标准。

(1)It is the most prevalent.s

(2)It is the most similar to orthologous sequences found in other species.

(3)By virtue of its length or amino acid composition, it allows the clearest description of domains, isoforms, polymorphisms, post-translational modifications, etc.

(4)In the absence of any information, we choose the longest sequence.


UniProt四个标准看到,最长转录本作为最后才考虑的一个标准,也就是说在选择基因转录本的时候,并不是最长转录本就是该基因的prevalent 转录本,或者predominant 转录本,或者representative 转录本,又或者'canonical'序列。小编比较了NCBIMANEUniProt三个数据库中数据,绝大多数情况下,都是选择最长的转录本作为representative 转录本。但是有例外情况,比如Gene ID: 2668MANEUniProt中都是NM_000514.4转录本,而NCBI中最长转录本为NM_001190468.1


总结:小编之所以给出例外情况,就是希望大家在后续确定研究的转录本时可以参考这三个数据库,而不是一味的选择最长转录本。当然具体情况需要根据大家的具体实验而定。比如文献中告知研究的突变位点,那需要根据突变位点以及文献中的其他信息进行确定,而且小编以前碰到过文献中研究的并非当前NCBI数据库的转录本序列,而是较旧的转录本序列。比如NM_000514当前的versionNM_000514.4,那就对应的会有NM_000514.3NM_000514.2NM_000514.1。表示转录本version的标志见截图红色方框。


文末福利:可能有人会问,如何查看较旧转录本与当前转录本的区别或者说每次都做了哪些更新?


点击上图红色方框,选择“Revision History”即可看到该转录本每次更新的时间。选中两条记录即可查看二者之间做了哪些具体的内容更新。





上海吉凯基因化学技术有限公司   商家主页

地址:上海市浦东新区张江高科技园区爱迪生路332号
联系人:陈先生
电话:18516626958/18621058196(企业用户)
传真:021-51370635
Email:marketing@genechem.com.cn;xin.chen@genechem.com.cn