Xiao-Le Deng

HGVS

2019-10-25 10:00
#Bio

HGVS是Human Genome Variation Society(人类基因组变异协会)的简称,是一个非政府的民间学术组织,其官方网站的网址:http://www.hgvs.org/。HGVS命名规则由HGVS(the Human Genome Variation Society)、HVP(the Human Variome Project)、HUGO(the Human Genome Organizaion)共同制定。

目前基因检测行业普遍应用HGVS规则对变异进行命名,统一的命名规则方便了各种交流。

下面介绍HGVS的命名规则。HGVS的所有变异命名从三个水平描述:**DNA水平、RNA水平、氨基酸水平,**并从两个方面进行反映:变异位点的位置和对编码蛋白造成的影响。所以,变异描述的顺序为:参考序列、变异位置、变异类型

我们在变异描述中使用的参考序列是怎么回事?各又代表什么含义?这篇文章我们会重点描述。

所有突变位点必须基于一个参考序列进行描述,不用类型或版本的参考序列之间有或多或少差别,因此,在进行变异描述之前需务必标明参考序列信息。

1. 简介

1.1 格式

参考序列必须是是NCBIEBI数据库中的ID,必须同时包含accessionversion信息,如:NC_000023.10, NC_000023代表编号,10代表版本号。

上述例子中下划线前面的大写字母代表参考序列的格式,目前**批准(官宣)**的参考序列格式有:**NC_#**(例如NC_000023.10),**LRG_#**(例如LRG_199,LRG_199t1),**NG_#**(例如NG_012232.1),**NM_#**(例如NM_004006.2),**NR_#**(例如NR_002196.1)和**NP_#**(例如NP_003997 0.1),其含义分别为:

  • **NC_#**:代表完整的基因组序列,标记的类别包括基因组、染色体、细胞器、质粒。

  • **LRG_#**:Locus Reference Genomic,基因座参考基因组序列。

  • **NG_#**:不完整的基因组区域,提供NCBI基因组注释途径。比较有代表性有不转录的假基因或者那些很难自行化注释的基因组簇。

  • **NM_#**:转录产物序列;成熟mRNA转录本序列。基因检测报告中最常用此作为参考序列。

  • **NR_#**:非编码的转录子序列,包括结构RNAs,假基因转子等。

  • **NP_#**:蛋白产物;主要是全长氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。

1.2 文件标识符

参考序列文件标识符应包含入藏号(accession number)版本号(version number),两者用“.”隔开,除了LRG格式的参考序列之外,其他格式的参考序列均需要版本号。如:NG_012232 .1,LRG参考序列不包含版本号(例如LRG_199)。

在参考序列文件标识符和变异位置之间用冒号“:”隔开,如NC_000011.9 : g.12345611G>A。

HGVS建议使用最新的基因组参考序列版本,如NC_000023.10(对于人染色体X,GRCH37 / hg19)。

一个典型的HGVS命名示例如下:NC_000023.9:g.32317682G>A,NC_000023.9是NCBI中人类的X染色体的编号,在参考序列之后紧跟着一个冒号,用于分隔参考序列和突变信息,g代表基因组序列,g.32317682代表在基因组上的位置, G>A表示由G碱基突变成A碱基。

如果突变位点在NCBI和EBI中没有合适的参考序列,最终的解决方案就是申请一个LRG编号(http://www.lrg-sequence.org/),在该数据库中对于HGNC定义的gene symbol也出给了对应的LRG编号。

1.3 参考序列类型

DNA

g. = 线性基因组参考DNA序列

o. = 环状基因组参考DNA序列

m. = 线粒体参考序列

c. = 编码DNA参考序列

n. = 非编码DNA参考序列

RNA

r. = RNA参考序列

Protein

p. = 蛋白参考序列

1.4 变异位置

g代表基因组,m代表线粒体,p代表蛋白质,这三种参考序列在定位时,都是从1开始计数,写法为g.1, m.1, p.1, 除此之外,不需要任何的修饰符号。

c代表编码蛋白的DNA序列,从起始密码子的第一个碱基开始计数,写法为c.1, 只对exon区间进行计数,终点为终止密码子的最后一个碱基。

对于起始密码子上游的碱基,采用负号表示,比如c.-1;对于终止密码子下游的碱基, 采用表示,比如c.1;

内含子区的变异位点要根据距离来决定,靠近内含子5’末端的变异位点,要根据上游最近的外显子的最后一个碱基来定位,示例c.87+4,上游最近的外显子的边界位置为87,变异位点在内含子5’端开始的第4个碱基;

靠近内含子3’末端的变异位点,要根据下游最近的外显子的第一个碱基来定位,示例c.109-4,下游最近的外显子的边界位置为109,变异位点在内含子3’端开始的第4个碱基;

位于5’UTR和3’UTR区的变异位点,也当做内含子区来处理,5’UTR区添加c.-前缀;比如c.-85+1;3’UTR区添加c.*前缀,比如c.*37+1。

2. DNA的不同变异类型

2.1 置换 (Substitution)

HGVS定义:

a sequence change where, compared to a reference sequence, one nucleotide is replaced by one other nucleotide.

描述格式:“prefix”“position_substituted”“reference_nucleotide””>”new_nucleotide”

如:g.123A>G

“prefix” =参考序列 = g. “position_substituted” = 被置换碱基位置= 123 “reference_nucleotide” = 被置换的碱基= A ”>” = 置换为= > “new_nucleotide” = 置换后新的碱基= G

有些注意的

1. predix:参考序列可以是g.(基因组)、m.(线粒体)、c.(编码DNA)、n.(非编码DNA)。

2. 碱基数:置换不局限于单碱基之间的置换,可以是多个碱基,可以描述为delins。涉及多个碱基发生变异时,若是两个变异,则这个变异单独描述而不用delins进行合并描述。例外的情况:涉及的多个变异的碱基共同影响了一个氨基酸,则需要合并描述,使用delins,如c.142_144delinsTGG (p.Arg48Trp)。

多态性位点不能描述为:c.76A/G,尽管过去使用此形式描述多态性位点,但现在的观点是要客观中立的描述碱基的变化,而不应该带有任何预测或已知功能的信息。

举个例子:

  • NC_000023.10:g.33038255 C>A :33038255位置的C被A取代。

  • NG_012232.1(NM_004006.1):c.93+1G>T:编码DNA序列的c.93+1位置的G被T取代。

  • LRG_199t1:****c.79_80delinsTTor c.[79G>T;80C>T]:一般情况下,推荐使用c.79_80delinsTT形式,在c.79G>T和c.80C>T两个变异中其中一个为已知的高频变异的情况下,推荐使用c.[79G>T;80C>T]。

注意:根据碱基置换的定义,是一个碱基被置换为另一个碱基,因此,下列的描述方式是错误的:c.79_80GC>TT或c.79GC>TT。

  • NM_004006.1:c.[145C>T;147C>G] 也可描述为NM_004006.1:c.145_147delinsTGG,除非c.145C>T 和 c.147C>G其中一个为已知的高频变异情况下,必须使用c.[145C>T;147C>G]。

  • LRG_199t1:c.54G>H c.54位置的G碱基被A、C或T取代。

  • NM_004006.1:c.123= c.123位置没有氨基酸变化。

  • LRG_199t1:c.85=/T>C 在c.85位置上,即发现了与参考序列一致的碱基T,也发现了被C取代的情况。

**注意:**不论上述两种情况的比例如何,都需要把参考序列一致的碱基列于第一位。

  • NM_004006.1:c.85=//T>C 嵌合体情况,包括c.85=的细胞,也包括c.85T>C的细胞。

**注意:**不论上述两种情况的比例如何,都需要把参考序列一致的碱基列于第一位。

2.2 缺失(Deletion)

HGVS定义:

a sequence change where, compared to a reference sequence, one or more nucleotides are not present (deleted).

**描述格式:**prefix”“position(s)_deleted”“del”

g.123_127del

“prefix” = 参考序列= g. “position(s)_deleted” = 缺失碱基的位置或缺失碱基起始位置= 123_127 “del” = 缺失= del

有些注意的点:

\1. “position(s)_deleted”表示不同的位置,如g. 123_126而不能是123_123。

\2. “position(s)_deleted”位置描述应该从5’端到3’端进行。特殊情况:环状的基因组序列,如o.和m.,当缺失碱基位于参考序列的最后和开始位置时,可以按照3’到5’进行描述。

\3. 最靠近3’端法则:缺失的碱基认为是靠近3’端,而不是5’端。如,ACTTTGTGCC变成了ACTTGCC,缺失了三个碱基,是ACTTTGTGCC还是ACTTTGTGCC?也就是说从5’端开始出现不一致的序列算起,还是从3’端出现不一致的序列算起?根据最靠近3’端法则,TGT比TTG更靠近3’端,因此,变异描述应认为缺失了TGT(c.5_7del),而不是TTG(c.4_6del)。或者,我们可以这么理解,比对参考序列和变异后的序列时,从5’端开始比对至出现第一个不一致的碱基,被认为是变异的起始位置。 但也有例外的情况,缺失的多个碱基跨越内含子和外显子的边界,基于缺失的碱基对外显子的影响要大于对内含子的影响。如CAGgtg变成CAgtg,应描述为c.3+1delG,而不是c.3delG。

举个例子:

  • NG_012232.1:g.19_21del 原始序列 AGAATCACA ,缺失后的序列AGAA**___**CA,也可以将缺失的碱基列出,如NG_012232.1:g.19_21delTCA。

  • NG_012232.1(NM_004006.1):c.183_186+48del 缺失范围跨越了外显子和内含子的边界。

  • NG_012232.1(NM_004006.1):c.4072-1234_5155-246del 此种情况为跨越内含子的外显子缺失,即exon30(c.4072起始)到exon36(c.5154为止)。此种情况下,由于缺失碱基数目较多,缺失的碱基便不应该列出来了。

  • NG_012232.1(NM_004006.1):c.(4071+1_4072-1)_(5154+1_5155-1)del 缺失的break point 还无法确定。

  • NG_012232.1(NM_004006.1):c.(?-245)(31+1_32-1)del 缺失的起始位点位于基因上游某位点,已确定的最近的位点在c.-244。

2.3 重复 Duplication

HGVS定义:

a sequence change where, compared to a reference sequence, a copy of one or more nucleotides are inserted directly 3' of the original copy of that sequence.

描述格式: “prefix”“position(s)_duplicated”“dup”

如:g.123_345dup

“prefix” = 参考序列 = g. “position(s)_duplicated” = 发生重复的碱基或碱基起始位置= 123_345 “dup” = 重复 = dup

有些注意的点:

\1. 描述碱基重复的位置同样也必须遵循“最靠近3’端法则”。

\2. 根据碱基重复的定义,重复的碱基是直接位于被重复的碱基3’端,而不是在其他地方(插入)。当不知道重复的碱基是直接位于重复的碱基3’端还是插入到了别的地方,不能被描述为dup,而应描述为插入(insertion)。

\3. 当重复的次数大于等于2个拷贝时,需要引用中括号,列出重复的次数,如[3]代表重复了3次,可参照重复序列的命名规则(http://varnomen.hgvs.org/recommendations/DNA/variant/repeated/)。

举个例子:

  • NM_004006.2:c.20dup(NC_000023.10:g.33229410dup) 一个碱基的重复,也可以描述为c.20dupT,错误的描述为c.19_20insT,被重复的碱基为单个碱基,因此不能描述成范围的形式。

  • NM_004006.2:c.20_23dup(NC_000023.10:g.33229407_33229410dup) 多个碱基的重复,需要列出被重复碱基的起始位置,因此需要描述成范围的形式。

2.4 插入(Insertion)

HGVS定义:

a sequence change where, compared to the reference sequence, one or more nucleotides are inserted and where the insertion is not a copy of a sequence immediately 5'

描述格式:“prefix”“positions_flanking”“ins”“inserted_sequence”

如:g.123_124insAGC

“prefix” = 参考序列= g. “positions_flanking” = 被插入碱基的起始位置 = 123_124 “ins” = 插入 = ins “inserted_sequence” = 插入的碱基序列= AGC

有些注意的点:

\1. 被插入碱基的起始位置是指在这两个碱基之间插入了别的序列,因此,123_124表示的是在123位碱基和124位碱基之间插入了AGC。

\2. 所描述的插入的位置一定是有下划线连接起来的范围,而非单个位点。

\3. 描述被插入碱基的位置同样也必须遵循“最靠近3’端法则”。

举个例子:

  • NC_000023.10:g.32867861_32867862insT(NM_004006.2:c.169_170insA) c.169和c.170之间插入了碱基A。

  • NM_004006.2:c.(222_226)insG(p.Asn75fs) 不确定插入位置时,用括号括起来,表示不确定是在c.222到c.226之间的那个位置插入了碱基G。

  • NC_000004.11:g.(3076562_3076732)ins(12) 在g.3076562与 g.3076732 之间的某个位置,插入了12个碱基。

  • NC_000023.10:g.32717298_32717299insNN(NM_004006.2:c.761_762insNN) 在c.761与c.762之间插入了一个碱基,但不确定插入碱基的序列。

  • NM_004006.2:c.761_762insNNNNN(or NM_004006.1:c.761_762ins(5)) 若插入的碱基很多,可以在括号内用数字表示。

2.5 重复序列 Repeated Sequences

HGVS定义:

a sequence where, compared to a reference sequence, a segment of one or more nucleotides (the repeat unit) is present several times, one after the other.

描述格式(重复单元):“prefix”“position_first_nucleotide_first_repeat_unit”“repeat_sequence”[“copy_number”]

如:g.123CAG[16]

“prefix” =参考序列 = g.

“position_first_nucleotide_first_repeat_unit” = 重复单元的第一个碱基位置 = 123

“repeat_sequence” =重复单元 = CAG

[ =重复数目使用中括号 = [

“copy_number” = 重复单元数目 = 16

] = 重复数目使用中括号= ]

举个例子:

  • NC_000014.8:g.101179660TG[14] 双碱基TG重复14次

  • NC_000014.8:g.101179660TG[14];[18] 双碱基TG,一个allele上重复了14次,另一个allele上重复了18次。

  • **NM_002024.5:c.-128_-69GGC[10]GGA[1]GGC[9]GGA[1]GGC[10]** 在c.-128至c.-69这个范围内,GGC重复了10次,GGA重复了1次,GGC重复了9次,GGA重复了1次,GGC重复了10次。

2.6 其他,如倒位(inversion)、转换(conversion)、易位(translocation)等

上述罗列了比较常用的DNA水平的变异命名,还有一些其他的类型未列在其中,比如倒位(inversion)、转换(conversion)、易位(translocation)等。

3. 蛋白质的变异命名

hgvs2

三个碱基组成一个密码子,翻译成一个氨基酸,碱基的变异可导致不同种类的氨基酸的变化,比如:

  • 一个氨基酸变成另一份氨基酸:错义突变(missense)

  • 一个氨基酸变成终止密码子:无义突变(nonsense)

  • 虽然碱基发生变化,但是编码的氨基酸没有变化:同义突变(silent)

**注意这里的中英文对应关系哦,尤其是nonsense和silent。**不同的突变类型,都归于上述的氨基酸的变化。氨基酸也有类似碱基的突变类型:

3.1 置换(Substitution)

变异表示形式(Format)

“prefix”“amino_acid”“position”“new_amino_acid”

如p.(Arg54Ser)

“prefix” =参考序列 = p. “amino_acid” =被替换的氨基酸= Arg “position” =被替换的氨基酸位置= 54 “new_amino_acid” =新的氨基酸 = Ser

NOTE

\1. 这里指的是预测的氨基酸的变化,用圆括号表示,没有经过实验验证,如没有经过RNA或蛋白序列验证的情况。

\2. 与碱基的变化相同,氨基酸水平的多态性位点亦不能表示为:p.76Ser/Arg,不论是碱基的变化还是氨基酸的变化,都应该以中立客观的方式去描述,一视同仁。

▼举个例子▼

错义突变: 1) LRG_199p1:p.Trp24Cys:24位Trp变为Cys 2) NP_003997.1:p.(Trp24Cys):24位Trp变为Cys,基于DNA序列推断,无实验证据。

无义突变: LRG_199p1:p.Trp24Ter(p.Trp24*):24位的Trp密码子变为终止密码子,此处,终止密码子的表示方法一般用两种:“Ter”/“*”。

同义突变: NP_003997.1:p.Cys188=虽然碱基发生了改变,但是所处的188位氨基酸没有发生变化。(同义突变用“=”表示)

起始密码子: LRG_199p1:p.0:不翻译蛋白质;LRG_199p1:p.?(p.Met1?):起始密码子丢失,但无法预测是否有蛋白质翻译

形成新的起始密码子:(一般经过了实验验证)

新起始密码子位于原起始密码子的上游(upstream):见延伸(Extension)部分

新起始密码子位于原起始密码子的下游(downstream):NP_003997.1:p.Leu2_Met124del:这里的位置表示的是由于原起始密码子的变化,原氨基酸序列的前123个氨基酸无法翻译,在原序列的124位产生了新的起始密码子。注意,此处同样遵循最靠近3’法则。

不确定(uncertain)NP_003997.1:p.(Gly56Ala^Ser^Cys):56位Gly不确定变成了Ala 、Ser、Cys这三种中的哪一种氨基酸。

嵌合现象(mosaic)LRG_199p1:p.Trp24=/Cys:同DNA水平描述,24位原序列氨基酸Trp和改变后的氨基酸Cys同时存在,但不管两种氨基酸的比例如何,都要把与参考序列相同的氨基酸置于第一位。

3.2 缺失(deletion)

变异表示形式(Format):

“prefix”“amino_acid(s)+position(s)_deleted”“del”

如:p.(Cys76_Glu79del)

“prefix” = 参考序列 = p. “amino_acid(s)+position(s)_deleted”=氨基酸缺失的起始位置 = Cys76_Glu79 “del” = 缺失= del

NOTE

  1. 氨基酸的缺失命名规则大部分与DNA水平相似。

  2. 同样也遵循最靠近3’端规则。

  3. 碱基缺失应优先考虑蛋白水平变异,最常见的为移码变异。

▼举个例子▼

LRG_199p1:p.Val7del:7位氨基酸缺失

LRG_199p1:p.(Val7del):预测7位氨基酸缺失,未经过实验验证

p.Gly2_Met46del:参考序列的起始密码子缺失,新的密码子始于参考氨基酸序列的46位

3.3 重复(Duplication)

变异表示形式(Format):

“prefix”“amino_acid(s)+position(s)_duplicated”“dup”

比如:p.(Cys76_Glu79dup)

“prefix” =参考序列 = p. “amino_acid(s)+position(s)_duplicated” = 重复氨基酸范围位置 = Cys76_Glu79 “dup” =重复= dup

NOTE

  1. 氨基酸重复一般规则同DNA水平。

  2. 同样遵循最靠近3‘端原则。

▼举个例子▼

p.Ala3dup:原序列:MetGlyAlaArgSerSerHis,发生该变异后的序列:MetGlyAlaAlaArgSerSerHis

p.(Ala3dup):同上,但是改变以未经过实验验证。

p.Ala3_Ser5dup:第3到5位的氨基酸发生了一次重复。

p.Ser6dup:原序列:MetGlyAlaArgSerSerHis ,变异后的序列:MetGlyAlaArgSerSerSerHis,遵循最靠近3’端原则,位置为第6位,而不是第5位。

3.4 移码突变(Frame shift)

变异表示形式(Format):

“prefix”“amino_acid”position”new_amino_acid”“fs”“Ter”“position_termination_site”

如:p.(Arg123LysfsTer34)

“prefix” = 参考序列 = p. “amino_acid” =发生改变的第一个氨基酸 = Arg “position” = 氨基酸位置=123 “new_amino_acid” = 突变后新的氨基酸 = Lys “fs” = 移码=fs “Ter” = 改变的最后一个氨基酸= Ter / * “position_termination_site” = 最后一个氨基酸的位置= 34

NOTE

  1. 移码突变为一种特殊形式的del/ins,但是在描述的时候,不能列出缺失的那一部分的位置和氨基酸。

  2. 突变后的第一个氨基酸未必对应DNA水平的突变碱基。

▼举个例子▼

p.Arg97ProfsTer23 第97位的Arg突变为Pro,后续并发生移码,编码23个氨基酸后终止,该形式也可以写成p.Arg97fs。

p.(Tyr4*) 经过序列预测(有括号),第4位的Tyr突变成了终止密码子。可以对照序列帮助理解,原序列: ATGGATGCATACGAGATGAGG.. ,突变后的序列:ATGGATGCATA_GTCACG (c.12delC) 。

3.5 延伸(Extension)

变异表示形式(Format):

  1. N端的延伸(N-terminal) “prefix”“Met1”“ext”“position_new_initiation_site”

如:p.Met1ext-5

“prefix” = 参考序列 = p. “Met1” = 参考起始密码子= Met1 “ext” = 延伸= ext “position_new_initiation_site” = 突变后往上游延伸的起始密码子位置= -5

  1. C端的延伸(C-terminal):

“prefix”“Ter_position”“new_amino_acid”“ext”“position_new_termination_site”

如:p.Ter110Glnext*17

“prefix” = 参考序列= p. “Ter_position” = 参考终止密码子位置= Ter110 “new_amino_acid” = 原终止密码子突变后的编码氨基酸= Gln “ext” = 延伸=ext “position_new_termination_site” = 突变后新终止密码子位置= *17

NOTE

延伸也是属于特殊形式的del/ins,或特殊形式的移码突变,在进行变异描述的时候,需要遵循优先权:1)延伸,2)移码突变或del/ins突变。

▼举个例子▼

p.Met1ext-5 突变后,在5’-UTR区(原起始密码子上游5位)形成了新的起始密码子,该变异也可描述为: p.Met1extMet-5

p.Ter110Glnext17 注意:该变异也可以描绘为:p.110Glnext17,而不能写成:p.Ter110GlnextTer17 ,“Ter17”表示的是17个氨基酸,而不是位置,因此,这里只有用“”才是正确的。

3.6 其他,插入(Insertion)、缺失-插入(Deletion-insertion)、Repeated sequences(重复序列)等

氨基酸的很多变异类型的命名原则与DNA水平的碱基变异命名原则一致,比如:插入(Insertion)、缺失-插入(Deletion-insertion)、Repeated sequences(重复序列)等。

4. 来源和参考