进入NCBI网站,选择“Gene”,在search框中输入感兴趣的基因的名称、基因ID或相关的生物物种,以“P53”为例。
点击“search”按钮,系统会显示与您的查询相关的数据库条目列表,选择对应的物种,以“human”为例。
点击对应物种基因名,系统会显示与您的查询相关的数据库条目列表。包括基因的Summary、Genomic context和Genomic regions, transcripts, and products等。
在search结果中,找到“Genomic regions, transcripts, and products”条目,该页面显示了基因所有对应的转录本ID和蛋白ID,根据需求选择对应转录本,一般推荐MANE Select(MANE数据旨在收录和整理人类基因的转录本注释信息,并且提供编码基因最具代表性转录本和相应的蛋白质。)鼠标悬浮在转录本上,在转录本信息里可以看到“Status:MANE Select”。
另外,转录本的选择一般有两种思路,一种是一般认为每个基因在“NCBI Reference Sequences(RefSeq)”条目里显示的转录本1是研究最多的,可以从转录本编号后边的“.几”来判断该转录本更新的次数,更新的次数越多代表该转录本研究的越多;另一种则是选择众多mRNA转录本中最长的转录本(longest isoform)。
鼠标悬浮在第一个转录本上,会出现该转录本的详细信息,如Location:complement(7,668,421..7,687,490)、CDS length:1182 nt和Protein length:393 aa等。
您可以在页面上找到“Links & Tools”条目,点击“CCDS:CCDS11118.1”,进入相应的详细页面,找到“Nucleotide Sequence(1182 nt)即CDS序列”,找到“Translation(393 aa)即蛋白序列”。
另外,在基因相关信息页面,下拉找到“NCBI Reference Sequences(RefSeq)”条目,在“mRNA and Protein(s)”里可以看到有不同的转录本,其中mRNA一般是“NM”开头,非编码RNA一般以“NR”开头,还有一种“XM”开头是生物信息预测的转录本。“NP”开头表示蛋白质,“NC”开头表示基因。
找到想要的“NM”开头的转录本号和“NP”开头的蛋白号,点击进入,即可看到基因详细信息。
下滑找到“CDS”,点击,即可看到CDS序列,可以直接复制或者点击右下角“FASTA”再复制。
蛋白序列同理,下滑找到“Protein”,点击即可直接复制或者点击右下角“FASTA”再复制。