加载页面中...
文献阅读1 | lwstkhyl

文献阅读1

单细胞转录组(scRNA-seq):测序单个细胞的mRNA

空间转录组(Spatial Transcriptomics, ST):保留组织切片的空间位置,捕获区域内的mRNA。每个spot50-100个细胞(或者1-10个细胞),揭示基因表达的空间分布

单细胞空转数据:整合单细胞与空间数据,用单细胞数据注释空间Spot的细胞类型,同时获得“细胞异质性+空间位置”

  • 肿瘤细胞、免疫细胞、基质细胞在组织中的空间分布(免疫细胞是否浸润肿瘤核心)
  • 脑区不同区域的细胞类型特异性表达(阿尔茨海默病患者海马区的空间基因表达异常)

单细胞核RNA测序/单核RNA测序(snRNA-seq):测序细胞核中的mRNA,相比于scRNA-seq更适合处理冷冻样本或难以解离的组织。细胞核RNA中含有大量的非编码序列,内含子序列提高识别细胞类型的分辨率。单个细胞核已被证明可以提供足够的基因表达信息来定义成人大脑和小鼠海马区相对宽泛的细胞类别

内源性逆转录病毒(Endogenous Retroviruses, ERVs):整合到宿主基因组中并可稳定遗传的逆转录病毒——病毒基因组便会随宿主基因组代代遗传,逐渐成为宿主基因组的一部分,该过程反复发生,使其成为人类基因组中不可分割的组件(约占5%-8%) 参考文章

  • 整合到宿主基因组后,大部分内源性病毒元件积累有害突变,在长期进化过程中逐渐片段化甚至丢失;一些病毒基因可能会对宿主产生有利的作用,因此会被宿主保留下来。在进化过程中,宿主可以驯化(Domestication)病毒基因使其参与宿主生物学功能(该过程被称为选配(Co-option)
  • 对宿主影响有好有坏
    • 可以插入到宿主基因中,从而破坏相关基因的表达,进而引发精神分裂症和癌症
    • 宿主也可以通过驯化来将逆转录病毒的基因占为己用(扩展适应(Cooption/exaptation)),例如对抗病毒感染和胎盘形成,类似机制在其它多种脊柱动物中均有发现
      • 免疫方面:内源性逆转录病毒的被膜蛋白会与外源病毒的被膜蛋白竞争细胞表面受体蛋白,从而保护宿主免受外源病毒入侵;宿主限制性因子Fv1来源于选配的内源性逆转录病毒的衣壳蛋白,可直接结合侵入细胞的外源性逆转录病毒的衣壳蛋白,阻止病毒遗传物质的释放,从而抑制外源病毒的复制
      • 生理学方面:人类胚胎发育过程需要合胞素蛋白诱导形成合胞体,其来源于内源性逆转录病毒的被膜蛋白。合胞素蛋白也可以促进成肌细胞融合和肌肉形成,与哺乳动物肌肉雌雄二型性的产生有关
    • 还可以调控宿主基因表达(参与干扰素应答转录网络的进化,成为很多干扰素诱导基因的增强子),通过顺式作用元件,例如逆转录病毒的长末端重复序列含有调控病毒基因表达的增强子,整合到人类基因组后,编码区域被清除,LTR转而调控宿主基因表达;内源性病毒元件来源的长链非编码RNA会作为启动子修饰哺乳动物的胚胎干细胞多能性
    • 基因组内特定位置内源性逆转录病毒的同源重组还会介导染色体重排的发生,促进进化
  • 在全基因范围内进行内源性逆转录病毒的挖掘:RetroTector,首先识别内源性逆转录病毒两端的长末端重复区域,接着识别病毒蛋白保守域,再重建原始逆转录病毒蛋白质序列。这种方法适用于插入时间较近、结构相对完整的内源性逆转录病毒,因为如果时间更久,病毒基因组可能片段化导致LTR丢失
  • 在宿主基因组中的增殖方式
    • 重感染(reinfection):生殖细胞或者体细胞中的内源性逆转录病毒能够产生完整的病毒颗粒,之后病毒颗粒重新整合到其他宿主细胞中,是人类内源性逆转录病毒增殖的主要方式
    • 转座:通过自身基因编码的病毒蛋白在生殖细胞中増殖(顺式转座),需要病毒具有功能性的gag、pol和env基因;利用感染同一细胞的其它逆转录病毒编码的蛋白质实现自身增殖(反式转座),不需要具有上述功能基因,通过转座增殖的病毒拷贝数更多

阿尔茨海默病(AD)空间与单核转录组学

散发性阿尔茨海默症(sAD):相对遗传性阿尔茨海默症(fAD/gAD)而言,核心指无明确单基因致病突变无明显家族遗传聚集性、由多因素共同驱动的阿尔茨海默症类型

  • fAD为常显遗传,由单基因致病突变导致(如APP、PSEN1、PSEN2,直接导致Aβ异常沉积或tau过度磷酸化),而sAD的致病因素包括遗传(如APOE ε4等位基因)、环境(如年龄、教育水平、心血管健康、生活习惯)、衰老相关的分子紊乱(如氧化应激、炎症)
  • fAD多为早发性(<65岁,甚至30-50岁发病),而sAD多为晚发性
  • fAD家族中至少2代人患病,且发病年龄逐代提前;sAD无明显家族聚集,无世代传递
  • sAD占所有AD患者的80%-90%左右,晚发性AD中95%都是sAD
  • fAD的致病基因突变频率在人群中很低,但sAD有数百个风险位点,构成了sAD的遗传易感性;sAD的发病是遗传易感性与不良环境因素的叠加

唐氏综合征阿尔茨海默病(DSAD):21号染色体上APP基因为三倍体导致AD风险极高,因此将DSAD作为一种遗传性阿尔茨海默症模型进行研究

5xFAD小鼠:一种阿尔茨海默病淀粉样蛋白模型

前额叶皮层(FCX)后扣带回皮层(PCC)都是与AD病理进展密切相关的脑区,分别作为AD的中晚期和早期症状相关脑区

差异表达效应大小:基因表达变化的幅度,log₂(FC)

空间簇:按脑区位置分的组,每个簇是脑内一个具体的空间区域;snRNA-seq簇:按细胞类型分的组,每个簇是一种具体的脑细胞类型

背景:之前的AD研究缺少空间信息(snRNA-seq只解析单个细胞的基因表达,无法确定该细胞在脑内的具体位置),但AD病理上在脑内是分层分区域分布的;小鼠AD模型是遗传改造的,而人类AD大多是散发的,遗传和散发性AD细胞状态差异大,导致在小鼠中取得成功的药物在临床实验中效果不好

通过snRNA-seq解析两种AD(sAD/DSAD)的空间和细胞特异性转录组变化(可能是是皮质层优先病理积累的基础),通过空间共表达网络揭示疾病进展过程(一个在皮质上层失调的胶质细胞炎症程序),通过细胞间通讯分析解析该程序的信号通路,通过5xFAD小鼠模型+空间转录组识别跨物种的淀粉样蛋白近端转录组学变化,为药物设计提供靶点

样本:人类前额叶皮质(认知正常对照、早期sAD、晚期sAD、DSAD),小鼠脑(5xFAD、野生型(WT))

研究思路:基础转录组特征→系统级网络→遗传关联→表型验证→病理关联

results

  • 从样本中获得空间转录组数据(10x Genomics Visium),进行空间分辨的跨物种基因表达研究,通过无偏聚类分析,在人类和小鼠数据集中分别确定了9个和15个大脑区域特定簇,并对聚类进行了注释;通过snRNA-seq聚类分析确定了所有主要的脑细胞类型,并通过差异丰度分析揭示了细胞状态组成普遍变化
  • 对每个疾病组与对照组进行了差异表达分析,识别与疾病相关的基因表达变化。发现21号染色体(chr21)的基因过表达依赖于区域或细胞类型,例如APP基因在L3/L4区域中与对照样本没有显着差异,而在该区域中的很多基因均下调,可能反映出该区域的优先病理积累,该区域也是认知过程的核心;使用snRNA-seq数据集对空间差异表达基因进行反卷积,发现上调的基因很多来自神经胶质细胞和血管细胞;在大多数空间簇中,差异表达效应大小具有高度相关性(对于脑内同一个空间区域,不同AD类型/阶段里,基因表达变化的幅度非常像),在大多数snRNA-seq簇中,差异表达效应大小具有中等相关性
  • 对空间转录组数据集中每个皮质层簇和白质进行了高维加权基因共表达网络分析(hdWGCNA),从7个网络中得到了166个基因模块(每个模块里的基因表达趋势一致),再根据表达模式及其组成基因集的相似性,进行层次聚类,把相似模块归成15个元模块,比较疾病组和对照组的差异模块特征基因效应大小,并分析每个模块参与的信号通路。通过模块保存分析验证模块是否在小鼠数据集中保存
  • 使用单细胞疾病相关性评分(scDRS)进行了遗传富集分析,研究阿尔茨海默病风险基因的细胞和区域富集情况,并确定疾病风险特征与共表达模块之间的联系(风险基因是通过哪些细胞/通路导致AD的)
  • 通过差异基因分析,分析AD的发病率与性别的关系;通过反卷积分析探究女性和男性中上调的基因分别是哪种细胞的
  • 使用成像质谱流式细胞术(IMC)对23种蛋白质进行多重成像,并比较了这些细胞群中不同疾病组间的蛋白质丰度
  • CellTrek/CellChat分析了疾病中的细胞间通讯,探究AD中哪些细胞通讯改变
  • Amylo-Glo染色人类和小鼠空间转录组组织,检测致密的β淀粉样蛋白斑块,探究淀粉样蛋白病理及其相关分子变化,通过整合淀粉样蛋白成像和转录组数据,分析特异性淀粉样蛋白基因表达特征(淀粉样蛋白附近的基因有哪些)

discussion

  • 时空病理进展(Spatiotemporal pathological progression)细胞失调(cellular dysregulation)是阿尔茨海默病的焦点。该研究鉴定了sAD和DSAD之间共享的区域差异表达基因,并将它们共同的遗传、临床和生物标志物特征联系起来
  • 空间转录组和snRNA-seq的整合分析增强了对不同亚型阿尔茨海默病转录组的理解,探索了阿尔茨海默病基因表达的时空动态性;细胞间通讯分析发现了信号通路的变化;多尺度网络分析识别出多种基因模块,揭示了阿尔茨海默病的时空基因表达模式
  • 淀粉样蛋白成像和空间转录组技术的整合分析可以识别致密淀粉样斑块和弥漫性纤维附近的转录组特征,从而获得跨物种淀粉样蛋白相关基因集
  • 在淀粉样蛋白相关基因中鉴定出M11枢纽基因,并在小鼠和人类中观察到M11在淀粉样蛋白沉积区域的表达,说明M11在AD病理学中的重要作用

局限性

  • 性别差异分析的样本量较少
  • 无AD的DS样本很少,无法排除DS本身的影响
  • 目前的空间转录组分辨率是55μm,无法精确到单个细胞的空间位置
  • 人类和小鼠数据集之间的样本差异可能导致基因集的差异,小鼠结果不能完全替代人类

UKB数据库全基因组测序

UTR(非翻译区, Untranslated Region):在mRNA的5’cap和3’polyA尾与编码区的中间(5’cap-5’UTR-编码区-3’UTR-3’polyA尾),调控基因的翻译过程。例如5’UTR通过影响招募核糖体来控制翻译的启动,3’UTR与mRNA的寿命和翻译效率有关。因此UTR区域的变异可能导致疾病

全基因组关联分析(Genome-Wide Association Study, GWAS):一种利用统计学方法研究基因变异与特定性状或疾病之间关联的分析方法

  • 转录组全关联研究(TWAS):一种用于研究基因表达和疾病之间关系的方法,通过对全基因组的基因表达数据进行统计分析,以识别与特定疾病或性状相关的基因表达变异。研究对象是转录组范围内的基因(或HERV等元件)表达水平,研究“变异如何通过基因表达影响疾病”(而GWAS更关注“哪里有风险变异”)

测序中“覆盖度较低的区域”:高度重复序列、GC含量过高或过低、基因的特殊结构(SV、假基因、高度折叠的二级结构)导致测序中某个特定的DNA片段获得的reads数过低,导致这个片段的基因序列无法被准确测定

背景:芯片基因分型只能测常见基因变异,难以检测罕见变异及复杂基因组区域、外显子测序遗漏非编码区和结构变异。外显子测序(WES)只测编码区域,不包含非编码区和结构变异。同时之前的研究中非欧洲人(非洲、亚洲等)的数据较少

采用Illumina NovaSeq 6000测序仪进行全基因组测序(WGS),使用GraphTyper、DRAGEN等工具检测SNP、插入缺失(indel)、结构变异(SV),并进行质控。基于gnomAD数据分类器将参与者划分为5个不同祖先队列,使用多种分析方法寻找基因组变异与疾病/性状的关联。填补了罕见非编码变异对人类健康影响的认知空白,为临床治疗提供支撑

质控方法

  • Genome in a Bottle(GIAB):已知准确序列的标准样本,比较测序结果与真实序列
  • 家系验证:孩子的基因应该来自父母
  • 同卵双胞胎验证:基因应该完全一样

研究成果

  • 共识别出超过10亿个SNP和1亿个indel,WGS在识别变异方面具有显著优势,尤其是在非编码区域如5’和3’UTR中,同时具有更高的覆盖度和更准确的基因型判定
  • 共识别出约273万个结构变异,稀有SV通常更长,非洲裔人群中SV数量最多(反映了其更高的遗传多样性)
  • 基因-表型关联分析(单变异检验、多祖先荟萃分析和罕见变异聚合分析),WGS数据在精细定位和发现新关联(罕见变异)方面表现出优势
  • 多祖先荟萃GWAS:结合不同遗传祖先人群(如欧洲、非洲、亚洲等)的全基因组关联研究,打破单一祖先人群的研究局限。揭示了28674个显著关联,有126个关联在非欧洲人群中更为显著,反映了不同人群中的选择压力和环境适应
  • 识别出大量可能导致蛋白质功能丧失的变异,WGS在识别高影响变异方面更敏感,尤其是在某些基因的覆盖度较低的区域,为研究人类基因敲除模型及其表型后果提供基础
  • 比较WES和WGS在相同样本中的表现,结果高度一致,但WGS在某些基因与表型的关联中中提供了更显著的统计信号
  • 系统评估了5’和3’UTR对表型的贡献,说明UTR变异可能与编码变异共同作用
  • 验证先前发现的SV与表型的关联,并发现了新的罕见SV关联,扩展了人群中有临床意义变异的比例

SV

  • 每人平均携带13102个可靠SV(7340个缺失、5762个插入/重复)
  • 大多数SV非常罕见,76.3%的SV是极罕见的(携带人数<10人,频率<0.001%),且罕见SV比常见SV(频率>1%)更长(如罕见缺失的中位长度1660bp,常见缺失仅169bp)。罕见SV的遗传效应可能更强,需要超大样本才能发现
  • SV影响疾病或生理性状:PCSK9促进LDL受体降解,是降脂药靶点;MIP缺失是白内障的罕见致病原因;CALR缺失可作为血液疾病的SV标志物,WES未检测到该SV(WES探针未覆盖其外显子),说明WGS对于检测SV的重要性
  • 可行动基因型:有明确临床干预措施的致病基因型。0.60%的人携带SV导致的可行动基因型,若后续验证这些SV的致病性,就有更多人可以通过遗传检测提前知晓疾病风险
  • ClinVar是全球最大的临床变异数据库,但只有4062条记录是SV,且多数SV的致病性未被大人群验证。ClinVar 中标注为致病性(P)或可能致病性(LP)的SV,在本次人群中几乎都是极罕见的,而良性(B)或可能良性(LB)的SV频率更高,为判断SV致病性提供人群频率参考(罕见SV更可能致病),有助于临床上更准确地判断SV致病性