基因编辑技术的研究进展及其在中药研究中的前景展望

[摘要]基因编辑技术是一项对基因组进行精确定点修饰的技术,可对特定DNA片段进行敲除、加入和替换等,从而在基因组水平上进行精确的基因编辑。其技术本质均是利用非同源末端链接途径修复和同源重组修复,联合特异性DNA靶向识别及核酸内切酶完成的DNA序列改变。基因编辑技术在科研、农业、医疗等领域都具有极其广泛的发展前景和应用价值。在疾病基因治疗领域,基因编辑技术在癌症如白血病、遗传性疾病如血友病、地中海贫血、多种肌肉营养障碍症和逆转录病毒相关传染病如艾滋病等疾病的治疗方面取得许多堪称跨时代的佳绩:结合基因编辑技术开展的实验新方法学研究及动物模型的制备工作也在迅猛地发展和完善;世界各地的实验室也已将基因编辑技术应用于预防疟疾、器官移植、生物制药、农业育种改良、灭绝物种复活等多个研究领域。该文就基因编辑技术在上述领域中的研究进展进行一些概括和总结。此外还归纳了一些当前针对基因编辑技术存在的争议和思考,并初步探讨了该技术在中药研究中的潜在应用前景。

[关键词]基因编辑技术; CRISPR/CAS9; ZFNs; TALENs

基因编辑技术是一项对基因组进行精确定点修饰的技术,可对特定DNA片段进行敲除、加入和替换等,从而在基因组水平上进行精确的基因编辑。此过程模拟了基因的自然突变,修改并编辑了生物的基因组,使研究人员可以在极短时间内模拟自然界漫长时间的基因演变,甚至能够完成自然进化中无法完成的基因组改变。在科研领域,该技术可以快速构建模式动物,节约大量科研时间和经费;在农业领域,该技术可以人为改造基因序列,使之符合人们的要求,研制如改良水稻等粮食作物;在医疗领域,该技术可以更加准确、深入地了解疾病发病机制和探究基因功能,以及改造人的基因,达到基因治疗的目的等。因此,基因编辑技术具有极其广泛的发展前景和应用价值。

1基因编辑技术的基本原理

锌指核酸酶(zincfinger nucleases,ZFN)、转录激活因子样效应物核酸酶 (transcription activatorlike effector nucleases,TALENs)和成簇的、规律间隔的短回文重复序列CRISPR/Cas9(clustered regularly interspaced short palindromic repeats,CRISPR)是三大基因编辑技术。这3种技术皆是通过在特定的靶向序列处引入双链断裂缺口(doublestrand break,DSB),继而通过NHEJ途径(nonhomologous end joining,NHEJ)和HR(homologous recombination,HR)途径这2种细胞内DNA修复机制完成修复。NHEJ途径(nonhomologous endjoining,NHEJ)使基因組DNA缺口处有碱基的插入或者缺失,造成移码突变,导致基因的敲除;HR(homologous recombination,HR)途径在提供外源DNA模板的条件下使基因组DNA得到精确的基因修复或靶向基因的添加[1]。由此可见,这3种基因编辑技术本质上均是利用非同源末端链接途径修复和同源重组修复,联合特异性DNA靶向识别及核酸内切酶完成的DNA序列改变。

11ZFNs每个锌指核酸酶单体都是由锌指蛋白(zinc finger protein,ZFP)与非特异核酸酶结合的人工合成酶。此酶的N端部分是能识别含有特定DNA序列的锌指蛋白,C端部分则由非特异性切割结构域Fok I以及连接DNA结合结构域和内切酶的肽段组成[23]。ZFN的特异性取决于ZFP,因此筛选高质量的ZFP是获得高效、特异性的ZFN的前提[47]。ZFP通常由3~6个锌指组成,每个锌指识别基因组中连续的3个碱基。ZFP一旦与基因组中的特定序列结合,Fok I核酸内切酶便会形成二聚体发挥内切酶活性,产生DNA双链断裂的缺口,继而通过细胞内修复机制对断裂部位的基因进行修饰[811](图1)。ZFN的基因打靶效率一般能够达到30%,可以做到针对特定序列设计ZFN来实现对靶基因的修饰。然而ZFN识别结构域存在的上下文依赖效应大大降低了ZFN设计和筛选效率。目前尚不能针对任意一段序列均可设计出满足要求的ZFN,也不能在每一个功能性染色体区段都能够顺利找到适合的ZFN作用位点。在ZFN的筛选和设计方面存在较大的技术困难之外,其制备价格也比较昂贵。此外,ZFN的脱靶切割也往往会导致细胞毒性。综上这些因素使得ZFN在基因治疗领域的应用有一定的局限性。

12TALENsTALEN是植物病原菌黄单胞杆菌Xanthomonas sp.产生的TALE蛋白的中央区域结构域与FokⅠ核酸内切酶结构域组合而成的一类重组核酸酶。TALE蛋白的中央区域结构域是该蛋白识别特异DNA序列的结构域。它包含了155~195个蛋白单元模块,每个模块单元有34个氨基酸残基,其中除第12和13位氨基酸可变外,其他氨基酸都是保守的。因此,这第12和13位氨基酸被称作重复可变的双氨基酸残基(repeat variable diresidues,RVDs) 位点[12],是靶向识别的关键。由于TALE存在多种变体,所以可以构建出靶向基因组中预设DNA靶位点的多种TALEN。相比ZFN技术,TALEN使用了TALE蛋白的中央区域结构域代替ZFP作为人工核酸酶的识别结构域,更好地解决了DNA序列识别特异性低的问题。TALE蛋白中央区域结构域对碱基的识别只由2个氨基酸残基决定:组氨酸天冬氨酸特异识别碱基C,即HD(His Asp)C;天冬酰胺异亮氨酸识别碱基A,即NI(Asn Ile)A;天冬酰胺甘氨酸识别碱基T,即NG (AsnGly)T;天冬酰胺天冬酰胺识别碱基G或A,即NN(AsnAsn)G或A;天冬酰胺赖氨酸识别碱基G,即NK(Asn Lys)G;天冬酰胺丝氨酸可以识别A,T,G,C 中的任一种NS (AsnSer)A,T,C,G [1314](图2)。这种与DNA碱基一一对应的方式在设计上相对于ZFN要简单得多。然而,在实际构建过程中,TALE分子的模块组装和筛选过程也比较繁杂,通常需要大量的测序工作。这使得该技术的使用成本较高,对于普通实验室的可操作性较低。此外,TALEN分子比ZFN大得多,因而在不能高效导入细胞方面也限制了它的应用。