抗原表位预测适用于已知一级结构的蛋白质或多肽抗原的线性表位的预测。人们通过观察抗原表位与已知氨基酸序列的蛋白质某些结构特征关系,发现一些蛋白质的序列或结构特征与抗原表位有关。在抗原抗体的结合反应中,抗原参与结合的部位称为 B 细胞抗原决定簇或者表位。从空间结构上看,B 细胞表位可分为线性表位(也称 连续表位)和构象表位(也称不连续表位)。线性表位由肽链上连续的氨基酸组 成;构象性表位由空间结构上接近但肽链上不连续的氨基酸组成; Rubinstein 等研究从 PDB 数据库筛选的抗原抗体复合物,总结了 B 细胞表位生化、结构特点:(1) 75%的表位是由跨越 600Å ~1000Å 40 面积的 15~25 个氨基酸组成;(2)平均 90% 的表位残基是与抗体的互补决定区 (CDR)的残基相互作用;(3)表位和非表位区的氨基酸组成有很大的不同;(4)环状结构利于抗体的结合,因此表位多含有环状结构,而螺旋和折叠结构比较少见。
表位是蛋白质抗原性的基础,确定 B 细胞表位对于设计疫苗和药物具有重要的指导作用。确定 B 细胞表位的传统方法有两种:X-射线衍射方法和实验方法。但是这些方法比较繁琐,工作量也非常大。随着计算机技术的发展和生物信息数据库的日益扩大,从已有数据中总结抗原表位的序列及结构特征,并通过计算手段对可能的表位进行预测,然后结合实验手段予以验证成为另外一条可能的技术路线。
1、B 细胞表位在线预测工具:
ABCpred
http://www.imtech.res.in/raghava/abcpred
线性表位预测
BCPREDS
http://ailab.cs.iastate.edu/bcpreds/predict.html
线性表位预测
Bepipred
http://www.cbs.dtu.dk/services/BepiPred
线性表位预测
IEDB tools
http://www.immuneepitope.org/tools/bcell/iedb_input
线性表位预测
COBEpro
http://scratch.proteomics.ics.uci.edu/
线性表位预测
CEP
http://bioinfo.ernet.in/cep.htm
构象表位预测
DiscoTope
http://www.cbs.dtu.dk/services/DiscoTope
构象表位预测
PEPITO
http://www.igb.uci.edu/
构象表位预测
SEPPA
http://lifecenter.sgst.cn/seppa/
构象表位预测
Epitopia
http://epitopia.tau.ac.il/
构象表位预测
EPCES
http://sysbio.unl.edu/EPCES/
构象表位预测
EPSVR
http://sysbio.unl.edu/EPSVR
构象表位预测
EPMeta
http://sysbio.unl.edu/EPMeta/
构象表位预测
CBTOPE
http://www.imtech.res.in/raghava/cbtope/
构象表位预测
Ensemble Method
http://bcell.whu.edu.cn/
构象表位预测
2、B 细胞表位数据库
数据是 B 细胞表位分析与预测的基础。研究者们通过收集和整理已有的研究成果,开发了一些 B 细胞表位数据库。常用数据库见下表:
IEDB
http://www.iedb.org/
BCIPEP
http://www.imtech.res.in/raghava/bcipep
CED
http://immunet.cn/ced/
EPITOME
http://www.rostlab.org/services/epitome/
AntiJen
http://www.ddg-pharmfac.net/antijen/AntiJen/aj_bcell.htm
HIV
http://www.hiv.lanl.gov/
PDB 数据库于1971 年建立,主要收集通过 X-射线单晶衍射、核磁共振、 电子衍射等实验手段确定的蛋白质、核酸和糖的三维结构。因此,该数据库也存储了一些抗原或者抗原-抗体复合物的三维结构。
IEDB 数据库[5]在 2004 年建立,是使用最为广泛和最具权威性的表位数据库。 该数据库存储由实验确定的 B 细胞表位(线性表位和构象表位),这些表位收 60 集自公开发表的出版物或者由研究组自行提交。目前,IEDB 数据库包含 159,339 条 B 细胞相关记录。每个表位都提供了对应的参考文献、结构、来源抗原等信息。此外,该数据库还集成了一些表位预测工具。
Bcipep 数据库包含实验确定的线性 B 细胞表位(来源于文献或者其它的数据库)。目前,该数据库存储了 555 条表位。对于每一条表位,数据库给出了其肽段序列、来源蛋白、病原体等。如果数据来源于其它数据库,Bcipep 数据库也提供了链接。
CED 数据库存储了 293 条构象表位记录。研究者从 PubMed 和 ScienceDirect 数据库收集和整理文献,然后手工分析超过 3000 条文献,保留了高分辨率和完整的构象表位,并存入数据库。CED 数据库提供了表位的相关信 70 息,包括表位在抗原体的位置、表位的免疫特性、抗原体、抗原所对应的抗体等。 该数据库提供了友好的操作界面,能够展示表位的 3D 结构。
Epitome 数据库存储从抗原-抗体复合物推断的抗原表位。在该数据库中, 抗原残基和 CDRs 之间的反应称为免疫反应。研究者通过对复合物的比对和分析,识别抗原的 CDRs 区域,然后根据抗原抗体反应来标注与 CDRs 反应的抗原 75 残基。该数据库存储了 142 条标记抗原,也提供了可视化工具分析抗原-抗体复合物以及标注的表位。
AntiJen是一个综合数据库,涵盖了与免疫和疫苗相关的动力学、热力学和分子数据。AntiJen v2.0 包含 3541 条 B 细胞表位(线性表位和构象表位)。每条表位都提供了其肽段来源、抗体、外部链接。
HIV 分子免疫数据库包含 HIV 病毒表位。该数据库中的数据来源于 HIV 免疫文献,目前包含 11,361 条 HIV 相关的 B 细胞反应和 T 细胞反应数据。
3、B细胞表位预测方案简介
从80年代Hopp和Woods提出亲水性参数对抗原表位预测的方法以来,已有许多参数、算法发表,对B细胞蛋白抗原表位研究起到巨大的推动作用。现已被大众认可并具有较好预测效果的方法,主要有以下6种:
(1)亲水性方案(Hydrophilicity)
常用的有五种方法:Nozaki-Tanford scale,Hopp-Woods scale,Eisenberg scale,Kyte-Doolittle scale,HPLC scale。其中尤以Hopp-Woods方案最为有名。认为蛋白质抗原各氨基酸残基可分为亲水残基和疏水残基两类。在机体内,疏水性残基一般埋在蛋白内部,而亲水性残基位于表面,因此蛋白的亲水部位与蛋白抗原表位有密切的联系。Hopp-Woods方案是以残基由有机相环境转移到水相环境的自由能为依据计算各个氨基酸的亲水性。现已明确,亲水性部位与抗原表位并无很好的一致性,即高亲水性部位不一定是表位,表位也不一定是亲水性部位。
(2)可及性方案(Accessibility)
如Janin可及性参数,指蛋白质抗原中氨基酸残基被溶剂分子接触的可能性。它反映了蛋白质抗原内、外各层残基的分布情况。
(3)抗原性方案(Antigenicity)
对20个已研究得很透的蛋白质的69个连续位点的606个氨基酸统计分析,Welling建立了抗原性刻度。每个氨基酸用出现在抗原区的频率描述,此频率除以各氨基酸在所有蛋白质中的频率就可推出此刻度值。该法研究表明,疏水性氨基酸残基对抗原表位形成亦有贡献。缺点是其所用的数据库有限,并且连续位点内的残基被认为是同等重要的。显然那些不重要的残基归入计算会明显降低相关性。
(4)可塑性方案(Flexibility)
指蛋白抗原构象不是刚性不变的,其多肽链骨架有一定程度的活动性,活动性强的氨基酸残基即可塑性大的位点,易形成抗原表位。Karplas 和Schulz基于已知结构的31个蛋白质的Cx的温度β因子,发展了一种预测蛋白质片段活动性的方法。
(5)电荷分布方案(Charge distribution)
认为对碱性抗原特异的抗体多趋于酸性,对酸性抗原特异的抗体多趋于碱性。
(6)二级结构预测方案(Secondary structure)
认为β转角结构为凸出结构,多出现在蛋白质抗原表面,利于与抗体嵌合,较可能成为抗原表位。而α螺旋、β片层结构规则不易形变,较难嵌和抗体,一般不作为抗原表位。可预测蛋白质β转角的有Chou-Fasman,Garnier,Cohen等方法。其中各种方法预测的成功率均不超过65%。一般认为Cohen方法对转角的预测正确率很高,对于已知折叠类型的蛋白质(αα类,ββ类,α/β类)正确率高达95%,对于未知结构类型的蛋白质,可用3种类型分别预测,3类预测一致的转角对预测表位有帮助。
对上述各种参数的预测比较表明,各种方案预测的正确率均不高。一般将上述多种方案综合考虑,尤以可及性方案、可塑性方案、抗原性方案及二级结构预测为重要。概括而言,作为B细胞蛋白抗原的表位首先应易于位于或移动于蛋白质抗原表面,有利于与抗体结合。另外,具有一定柔韧性,因为抗原与抗体结合时蛋白构象有一定的变化。已经有一些文献提出了各自不同的综合分析方法。1988年Jameson和Worf提出一种综合预测方案。权重选择为:40%来自二级结构成分,可及性、柔韧性各15%,30%来自亲水性。在吴加金等编的Goldkey软件中,以六种参数Hopp-Woods,HPLC,Accessibility,Flexibility,Charge,Antigenivity综合考虑,得出综合判断图,阈值以上的峰即认为是预测的抗原表位。