加载页面中...
基因组学相关 | lwstkhyl

基因组学相关

coursera基因组学相关课程笔记

写在前面:本篇教程来自coursera课程基因组学:解码生命的通用语言DNA 解码基因组技术简介

基因组学:解码生命的通用语言

目前生物学的挑战:将生命系统的各个部分(零件)组装起来,了解它们是如何协同运作的

生物学研究围绕基因蛋白质

水平基因转移:在不同种类的细菌/病毒/其他生物体之间交换遗传物质。大多数物种基因组中,大约又5%-20%来自水平基因转移获得的无关生物。如果这些转移得到的基因对物种没有任何有利影响,则通常会逐渐丢失,而有帮助的则保留,通过这个过程能够以可预测的方式操纵生物。在自然界中,微生物可利用这个机制让抗生素耐药性广泛传播

收集抗生素的方法

  • 过去:收集土壤样本→实验室分离微生物→培养微生物→检测效果→提纯有效分子 仅能检测10%的分子,因实验室纯培养下,微生物90%的抗生素合成基因未激活(无竞争/交流对象、代谢成本高、基因受调控等)
  • 现代:微生物基因组测序→通过基因识别判断其是否有合成抗生素的能力→用基因工程等技术大量合成新抗生素

基因相互作用来影响性状表达:一种疾病可能是由于一条代谢途径上多个不同基因表达异常导致的(重要的是途径而不是某个基因),因此需要建立基因互作网络,以了解基因表达在细胞中的协作

共表达基因:表达一起上调/下调的基因,可能来自同一类细胞或以某种方式相关联

表达聚类:不同基因在功能上聚集。对于大量基因,无法逐一测试,需通过“基因聚类”简化研究——识别“在一定条件下始终共同出现”的基因群,挑选1-2个基因作为“代表”间接分析整个基因群

对代表基因的表达位置/功能场景进行定位

  • 免疫组织化学技术:制备目标基因编码蛋白质的特异性抗体,通过抗体在组织切片中定位蛋白质,确定目标基因的蛋白质产物在组织中的分布
  • 原位杂交技术:利用目标基因的RNA探针,结合细胞内的目标RNA,找到目标基因在细胞中“被激活(表达)”的部位,明确表达该基因的细胞类型

未知基因功能推断——关联推断法(guilt by association):根据“聚类基因大概率参与相同生理功能”,若基因群中部分已知基因明确参与某功能,可推测群内未知基因也参与该功能

生物材料:早期为惰性植入物(如金属人工关节),核心是不引发炎症/感染,被动支持细胞;现发展为活性材料(如脱细胞心脏瓣膜),可支持细胞再生——通过各种信号引导伤口细胞启动愈合过程,最终恢复天然组织。形态多样,包括金属、多孔海绵等。用于辅助愈合、新药测试、细胞毒性检测等

细胞的复杂性:同一基因组的细胞可形成多种细胞类型,转录因子的功能也具有多样性(转录因子发挥作用的条件不同)。关键问题是“如何通过调控转录因子的激活顺序或信号传递,引导细胞按预期行动”,因此需要我们理解不同通路的关联,以及不同生理状态下的基因调控机制,从而在工程层面设计出能传递精准信号、引发预期反应的生物材料

哺乳动物肢体形态:所有哺乳动物的肢体骨骼结构高度保守(骨骼种类相同),差异仅体现在骨骼比例、趾数量等方面。所有哺乳动物肢体发育的关键基因完全相同,基因的表达水平/时机/位置导致了肢体骨骼的形态细微变化,而非新基因的出现

  • 基因的跨物种保守性:肢体发育的基因调控机制在进化中极为保守,例如调控人类腿发育的基因,许多也调控昆虫腿的发育

基因表达的改变是生物适应环境的核心,基因组编码的信息决定了生物能否快速适应环境

转基因生物GMO:通过基因工程工具修饰基因组(通常是插入外源基因)的生物,例如抗除草剂/抗虫作物、高维生素大米等,实现跨物种基因转移、精准靶向性状

  • SoyFACE实验:探索作物对大气条件响应的遗传变异及调控基因,培育能“利用高CO₂”或“耐臭氧”的作物品种,应对未来环境变化
    • 平流层臭氧保护生物,近地面臭氧是污染物,臭氧浓度随环境变化,难以预测,因此管理手段有限,培育耐臭氧基因型的作物可能是更优解
    • 植物通过产生抗氧化物质清除活性氧,不同品系的抗氧化物质含量决定耐臭氧能力
    • 用20-30米环形装置露天操控CO₂和臭氧浓度,模拟2050年预期环境,研究作物响应
    • 植物-昆虫互作:高CO₂环境下,大豆因固定更多碳而叶片糖含量升高,同时氮含量降低;糖会刺激昆虫取食,氮含量低则导致昆虫需更多取食以获取足够蛋白质
  • 转基因技术的安全性
    • 转基因技术相比于传统育种:转基因技术精准导入明确的DNA片段(单个基因或代谢途径基因),高度可控;而传统育种全基因组杂交,带入大量未知基因,无法确定未知基因的影响
    • 实际应用:现代奶酪的凝乳酶、动物饲料中添加的氨基酸都来自“转基因细菌”,转基因木瓜等,应用广泛
    • 转基因来源的物质与天然物质化学结构完全相同,目前尚无任何证据表明转基因生物对人类健康有直接影响

基因组的动态性:环境与基因组持续互动,共同影响基因表达

表观遗传学(epigenetics):不改变DNA序列但修饰基因组、调控基因活性,揭示了环境用于塑造和调控基因组活性的具体机制与结构

  • 其中研究最多的是DNA甲基化——在DNA添加化学基团:修饰基因调控区则基因关闭,修饰基因内部则基因开启。使基因组能响应环境信号并分化出不同组织
  • 影响因素:行为、环境毒素、氧气含量、心理创伤等

精准医疗(precisionmedicine):根据个体的基因、环境和生活方式量身定制医疗方案,不同于“一刀切”的治疗(如给所有患某病的患者用同一种药)

  • 应用:癌症治疗、妇产科(孕期疾病、早产)、疾病预防
  • 问题:基因检测后的分析耗时较长,需要快速实时检测技术

生物标志物(biomarker):从个体身上获取的、可预测某种疾病状态的指标,例如血脂谱(胆固醇)

  • 早期标志物(子痫前期的“症状前标志物”)
  • 外周标志物(阿尔茨海默病的血液标志物)

转录因子:一类自身为蛋白质的分子,通过与DNA结合调控基因,决定细胞内表达哪些基因,从而影响细胞分化、组织形成。通过给与细胞不同的外部信号,能调控转录因子的表达

  • 结合位点非随机,每种转录因子偏好特定DNA短序列,称为基序(motif)。基序的分布是研究转录因子调控的起点
  • 基因调控的刺激来源:细胞内信号、其他细胞信号、外部环境信号,转录因子整合这些刺激——其活性形式的浓度会同时反映细胞内外的刺激信息,最后通过改变与DNA的结合程度来影响基因表达

基因调控网络:基因通过“产物调控产物”相互关联(如基因A的产物调控基因B,基因B的产物调控基因C)

  • 基因网络的“初始触发点”可来自“母体细胞继承的蛋白质”(非新细胞自身基因合成),这类蛋白质可启动首个调控环节

发育生物学:是基因调控研究最深入的领域,主要研究“单个细胞发育为完整生物体的过程”,该过程与基因调控密切相关

  • 基因调控是否在社会行为中发挥类似作用:差异极大的物种中,相同转录因子调控相似社会行为,说明社会行为可能起源于原始分子程序
  • 基因调控(或某些高度保守的基因调控形式与机制)是“不同物种共有行为模式”的核心,在社会行为进化中起关键作用

基因调控的研究技术:

  • 染色质免疫沉淀测序(ChIP-seq):通过染色质免疫沉淀(ChIP)与测序技术结合,对基因组中的每一段DNA进行“打分”,评估转录因子与该段DNA的结合强度,绘制“转录因子与基因组所有位置的结合图谱” 转录因子结合图谱+细胞接收刺激后的变化->被激活的转录因子会启动其结合位点附近的哪些基因->刺激后细胞会发生哪些重大变化
  • 计算预测:通过“识别转录因子偏好的基序”,在DNA中寻找潜在结合位点,模拟ChIP实验 问题:存在大量“假阳性基序”(有基序但无转录因子结合),需通过“基序周围的上下文环境”(如辅助序列——为转录因子结合DNA提供必要条件的序列)提高预测精度

测序服务:涵盖从已有文库测序到全新物种基因组从头测序等各类项目,提供“共享资源”,让研究者获取无法独自购买的昂贵设备与专业技术支持

  • 第二代测序实现数十亿条DNA片段的并行测序,测序全基因组的时间从10年缩短至数天,成本从数十亿美元降至数千美元。测序结果为包含A/T/C/G碱基序列的大型文本文件,研究者据此可拼接未知基因组或与已知参考基因组比对,分析突变、基因表达等

行为个体差异研究

  • 行为性状受多基因控制且存在上位性相互作用,同时受环境动态调控,不同基因型对环境的响应也存在差异
  • 关键问题:行为的一致性和差异性——个体行为长期稳定、种群中存在不同行为类型
  • behavioral syndrome(行为综合征?):种群层面的行为相关性,反映不同行为间的相关性,例如胆子大的个体往往更具攻击性,而胆小的个体往往攻击性较弱;behavioral type(行为类型):个体层面的行为特征,是种群内行为差异的具体体现,例如“胆大且具攻击性”或“胆小且无攻击性”
  • 研究模型:三刺鱼。其研究基础深厚,在每种环境中都表现出对当地环境的局部适应,对选择压力表现出快速适应和趋同适应(不同种群在相似选择压力下进化出相似性状)
  • 研究方法:
    • 野外:观察繁殖季行为、标记重捕实验(捕获后测定行为类型,重捕分析不同行为类型的个体在不同生境中的存活情况)
    • 实验室:抗捕食行为、入侵者响应(放入另一条三刺鱼,观察反应)、亲本抚育行为实验(观察雄性亲本抚育行为的个体差异,分析这种差异导致的影响)
  • 挑战:行为发生后测定的基因表达无法直接反映之前的行为成因,需要在行为发生前测定基因表达;行为后测定的基因表达,可能通过影响大脑状态,进而影响未来行为的概率,因此需要将基因与行为的关联与我们对大脑的认知整合(基因并非直接作用于行为,而是通过神经回路发挥作用)

母本效应(maternal effects):个体的生活经历可传递给后代,例如人类母亲孕期的环境条件会影响胎儿发育,进而影响后代成年后的性状;暴露于捕食者的雌性三刺鱼,其子代在诸多方面均存在显著差异(抗捕食行为、学习能力等)

基因组是“先天遗传”与“后天环境”的交互枢纽:环境通过表观遗传修饰影响基因表达,遗传变异与表观遗传均可跨代传递

基因组学在微生物研究中

  • 自然种群中的宿主-病原体共进化研究:观察基因组多样性如何随时间变化,以及哪些因素会影响这些变化
  • 具体方法:改变培养条件或人工操控,观察微生物变化;让微生物在培养中共同进化,追踪其进化过程,定位基因变异
  • 关键问题:大型生态系统间的相互作用,揭示与人类共生的微生物及其对人类的影响
  • 基因组学的核心:分析DNA中编码的序列,并利用这些序列研究进化
  • 基因组学的优势:突破单个基因研究的局限,将基因置于生物全部遗传物质中,分析基因间的相互作用;追踪微生物从环境中获取的外源遗传元件(病毒、质粒等)及其进化影响

环境对微生物进化与种群的影响

  • 非生物环境:体积大、稳定性高的热泉微生物多样性更高,因为如果环境变化,会导致其中的微生物被“清除”
  • 抗生素选择:携带抗性基因的微生物适合度更高,能在环境中大量繁殖
  • 生物竞争:微生物可利用“无害病毒”(对自身无害,但可杀死其它微生物)等作为武器,排斥其他微生物以占据环境,提升自身适合度
  • 中性过程:更多受随机性影响,后续变异是否留存依赖选择压力,如空环境的初始定植

人类微生物组:存在于人体内及体表的微生物生态系统。人体内的微生物数量远超人体细胞,且这些微生物基因组中的基因数量,也远多于人类基因组的基因数量

  • 微生物的作用:合成维生素、消化氨基酸、分解人类无法消化的碳水化合物等

岛屿种群:对比岛屿与大陆上同物种的进化差异,观察不同环境对进化差异的影响

  • 将人类个体视为微生物组的“宿主岛屿”:人体表面及体内各处的环境都不同,存在多种独特的生态系统,每个系统都有专属的微生物群落,且群落内部会发生各种动态过程,具有高度特异性;每个人的微生物组都存在细微差异,因此益生菌需要与个体已有的微生物群落适配
  • 粪便移植:将完整的健康微生物群落移植到患者体内——微生物间的相互作用是群落稳定的核心,仅添加单一菌株难以成功

基因组学与光合作用

  • 研究目标:提升光合作用效率以培育高产作物、增强光合作用在气候变化场景(高温、高二氧化碳浓度)下的适应性
  • 不同植物的环境可塑性差异显著,可塑性弱的植物在气候变化中更脆弱,因此需要帮助作物快速适应气候变化,而“基因组的表达受环境调控”正是植物可塑性的底层机制
  • 大豆等作物的光合作用效率仅约为理论最高效率的1/5,传统育种难以提升这一效率(不同作物的光合效率差异极小,可利用的遗传变异有限),需利用转基因技术——系统优化(增加光合作用中瓶颈基因的拷贝数)或跨物种基因导入(如将光合效率更高的藻类基因转入作物)
  • 在计算机上模拟光合作用(用模型呈现相关蛋白质与反应),并通过进化算法(数学模拟)让光合系统进化出更优状态,定位需优化的基因
  • CRISPR-Cas9基因编辑技术:若某种蛋白质在高温下易分解,可使用生物物理学得知改变某个核苷酸即可提升其高温稳定性,而基因编辑可精准定位并修改这一个核苷酸,无需导入外源基因
  • 挑战:技术层面完全可行,但“单核苷酸编辑的生物是否归为转基因生物”仍存在争议

显微镜成像技术:

  • 透明化技术(Clarity):去除组织中的脂质屏障,使组织透明,防止光线散射和折射率差异影响效果,实现深层成像,同时缩短成像时间
  • 共聚焦显微镜/活体层光显微镜:高分辨率成像,适用于活体或固定组织的精细观测
  • 跨领域应用:用相机监测热泉中石灰华的生长

基因组学与社会学的结合

  • 低收入黑人女性中社会环境(贫困、暴力)对健康的影响:社区暴力引发的压力如何影响身心健康,以及调控免疫系统的基因功能
  • 研究方法:通过访谈了解真实经历、使用量表进行量化评估;采集血液样本,进行转录组分析
  • 意义:让她们更深入地参与研究,为精准医疗提供社会维度上的参考,助力缩小健康差距、制定改善黑人社区健康的公共政策;同时揭示社会结构对基因表达的影响

DNA 解码

DNA指纹:利用可变数目串联重复序列(variable numbers of tandem reprat, VNTR)/卫星DNA,人类基因组中存在多个这样的位点,且重复单位的碱基序列在不同个体中具有高度的保守性,多态性在于重复单位的重复次数不同

  • 从血液/唾液中得到DNA模板(人体基因组),再利用PCR扩增卫星DNA(使用特定引物来控制只扩增指定片段),最后通过电泳显示其多态性

基因组技术简介

人类基因组计划:对30亿个碱基对进行测序,预期是每个碱基1美元,在结束时成本为≈700碱基/1美元,在今天,成本降到了300万个碱基/1美元

重复序列(repeats):可能对测序结果分析造成影响,因为重复序列高度相似,单次测序仅能读取数百个碱基的短序列,很可能得到一段完全由重复序列构成的读段,此时无法确定它来自基因组的哪个位置

  • 串联重复(Tandem Repeats):相同(或高度相似)的序列一个接一个连续出现
  • 散在重复(Interspersed Repeats):相同(或高度相似)的序列不连续排列,分散在不同染色体的不同位置上

mRNA的两端存在非翻译区(Untranslated Region, UTR)

  • 起始端(5’端)的非翻译区称为5’UTR,通常较短
  • 末端(3’端)的非翻译区称为3’UTR,通常较长,具有多种调控功能
  • 编码序列位于5’UTR和3’UTR之间

蛋白质的结构决定功能:位于结构内部的部分通常不活跃,而位于表面的部分通常是功能活跃区

遗传变异的人群分层:使用主成分分析,根据基因序列变异聚类

  • 结论:人群的遗传聚类与他们的原籍国高度吻合
  • 原因:人群倾向于与同一地区的人通婚并生育后代,导致遗传性状在地理上呈现区域化分布

研究基因型与表型关联的核心方法:全基因组关联研究(Genome-Wide Association Studies, GWAS)——通过大样本统计,寻找基因组中与特定性状(疾病或表型)相关的遗传变异,但无法直接证明这些变异是导致性状的原因

  • 对比病例组(患病/有性状)与对照组的基因型,寻找差异SNP
  • 最后找到与性状关联的遗传变异,但要注意关联≠因果(例如即使已知携带某种SNP的患病概率比不携带高,也不能直接推断该SNP导致患病)
测序技术

聚合酶链式反应(PCR):使用少量DNA大量扩增DNA片段(每轮循环DNA量翻倍,30轮循环可使DNA量达到初始的约20亿倍)

  • 主要底物:目标DNA(模板链)、引物、DNA聚合酶(催化DNA合成)、dNTPs(A/C/G/T,合成DNA的原材料)
  • 步骤:
    • 变性(94℃):DNA双链解链为单链
    • 退火(54℃):引物与单链DNA互补结合
    • 延伸(72℃):DNA聚合酶从引物3’端延伸,合成新链

下一代测序(Next Generation Sequencing, NGS):对2007年前后出现的最新测序技术的统称

  • 特点:自动化、高通量、速度快、成本低
  • 主要原理:
    • 先将DNA片段化(通常为几百个碱基)并固定在载玻片上(一块载玻片固定百万~千万个片段),通过PCR形成簇(cluster),每个簇包含数百万个相同的单链DNA短片段
    • 向载玻片中加入荧光标记(标记是哪种碱基)+可逆终止子(确保每次只添加一个碱基)构成的dNTPs,在每条模板链上添加dNTP时,荧光被激发,此时拍摄图像,荧光信号颜色对应碱基类型
    • 去除终止基团后,碱基继续添加,进入下一轮循环,依次读取下一个碱基
    • 所有DNA簇的测序同时进行,因此一块载玻片上的数百万个簇能在同一时间完成测序
  • 误差:误差随循环次数增加而升高(DNA聚合酶催化不绝对精准,可能多添加或未添加碱基,导致产生“超前”或“滞后”的片段,最后同一簇的荧光信号不再单一),因此读长有限(无法读长链)
  • 输出结果:读段(read),每个DNA簇对应一条读段,其中每个碱基附带质量值(quality value)——根据荧光信号的纯度计算得出,反映该碱基的准确概率(循环后期荧光信号杂色增加,质量值会逐渐降低)

下一代测序的应用

  • 外显子组测序(Exome Sequencing):检测蛋白质编码区(外显子)的基因突变,是寻找疾病相关基因突变的常用技术 外显子(exon):DNA转录为前体mRNA,前体mRNA被切割为外显子和内含子,内含子被去除,外显子拼接形成成熟mRNA,最后翻译成蛋白质。仅占人类基因组的约1.5%
    • 优势:只需检测极少部分DNA,就能获得所有蛋白质编码区域的信息,大幅降低成本和数据量
    • 流程:提取全基因组DNA并片段化,使用外显子捕获试剂盒(磁珠结合外显子),磁珠分离捕获外显子片段,NGS测序
  • RNA 测序(RNA-seq):分析细胞中基因的表达情况(哪些基因激活、表达量)
    • 流程:提取细胞中的总RNA,使用带有poly T的载体特异性捕获成熟mRNA(只有成熟mRNA3’端带有poly A尾),逆转录为cDNA后NGS测序
  • 染色质免疫共沉淀测序(ChIP-seq):确定特定蛋白质(如转录因子)在DNA上的结合位点
    • 流程:取目标细胞,通过化学方法将细胞内的蛋白质固定在其结合的DNA位点上;将交联后的DNA-蛋白质复合物切割成数百万个短片段(其中只有少数片段有DNA蛋白质结合区);使用针对目标蛋白质的特异性抗体将复合物片段分离;去除捕获复合物中的蛋白质,对DNA片段NGS测序
  • 亚硫酸氢盐测序/甲基化测序(Bisulfite Sequencing):检测DNA的甲基化位点(表观遗传修饰)
    • 原理:甲基化通常发生在碱基C上,亚硫酸氢盐能将未甲基化的C转化为U,比对处理前后的测序结果即可找出哪个C被甲基化
    • 流程:将待检测的DNA分为两份完全相同的样本,对其中一份样本进行亚硫酸氢盐转化,另一份样本不处理;均NGS测序,比对测序结果
基因组学中的计算机科学
计算机科学基础知识

三大研究方向

  • 理论:研究“计算机能做什么”、“哪些问题可被计算”的理论性工作
  • 系统:对计算机本身的研究,包括开发操作系统、设计编程语言等
  • 应用:计算机的实际用途(用计算机解决其他领域问题)

计算机科学的一个重要核心:用计算思维思考——将问题拆解为“计算机可精确执行的任务”

操作系统的核心功能:数据传输、程序管理、多处理器管理

计算机系统的其它重要方向:编程语言设计、工程(编写、测试代码)、硬件相关研究

算法(algorithm):一套清晰、分步的操作指令,是详细描述如何完成某件事的方法,无需依赖计算机

  • 设计高效算法的核心思路:用更少步骤、更少时间、更少内存完成任务 旅行商问题:考虑卡车的装载量、投递路线灯光因素,设计一条能覆盖所有这些住户的路线,投递完所有邮件后再返回仓库补货

如何更高效地存储

  • 更高效的存储方案:例如存储多序列比对数据时,由于序列间存在大量共性,无需存储所有完整序列,只需存储序列间的差异;用2bit表示1个碱基(A=00、C=01、G=10、T=11);内含子两端序列中,用各碱基在该位置出现的概率代替序列信息
  • 快速查找数据:例如基因组序列中,添加染色体+起始位置标签,快速查找短序列
  • 高效数据结构:若多段序列在基因组中位置相近,可在这些序列间建立指针关联,这样找到一个序列后,无需从头扫描,就能通过指针快速定位其他相近序列

软件工程:除了“软件能做什么”,更包括“软件的可靠性”、“处理场景的完整性”、“是否符合预期性能”

基因组学中的计算机科学

软件工程与基因组学结合:RNA编辑(RNA editing)的误判问题,细胞在转录后编辑了RNA中的某些碱基,导致RNA序列和DNA序列不完全匹配,最后产生不同蛋白质,是基因调控的重要方式

  • 思路:对同一人的DNA和RNA测序,理论上不匹配的位点就是RNA编辑位点
  • 使用比对软件处理大量序列数据时可能出错:比对软件的准确率可能高达99.999%,但在数百万条序列中,百万分之一的错误率仍会导致数百个错误比对结果。如果仅依赖软件输出的不匹配位点,而不进行验证,就就可能将软件的比对错误误判为新的RNA编辑位点
  • 启示:程序正常运行并输出结果不代表结果无bug。若不验证结果的可靠性,就可能得出错误结论

计算生物学软件:将原始数据转化为有用信息,将这些信息用于发现生物学规律和指导实验设计

分析流程(pipeline):“将原始数据依次输入一系列程序,每个程序对数据进行处理,最终输出可用于生物学发现的浓缩数据或结论”的过程,具体包括

  • 原始数据文件→数据清洗(去除噪声)
  • 数据汇总/组装(序列间比对/与参考基因组比对)
  • 进一步浓缩数据,输出可理解的结果

例:RNA-seq分析流程——输入为测序得到的短读段,输出为基因列表及对应的表达量,以Tuxedo pipeline为例

  • Bowtie:将RNA短读段与人类基因组比对,生成比对结果
  • TopHat:处理跨外显子的读段(RNA经剪接去除内含子,单个读段可能对应基因组上间隔较远的区域)
  • Cufflinks:将比对结果组装为基因,并计算基因的表达量、比较多样本的表达差异

软件的选择与更新

  • 不同软件可能输出不同结果,例如Bowtie2和BWA,即使对于两款软件均比对成功的读段,也可能比对到基因组的不同位置
  • 需要关注计算生物学软件的最新进展,并了解各软件的优劣;明确研究目标,以此为基准选择软件(例如仅被一款软件比对成功的读段可能是需要关注的关键数据
  • 测序技术不断发展,若用3-4年前的软件处理最新的测序数据,可能输出错误结果,即使程序可以正常运行
基因组学中的统计学
基本原则与概念

一些基础概念:

  • 总体(Population):研究关注的所有个体/样本集合,通常无法直接全部检测
  • 样本(Sample):从总体中通过概率抽样获取的部分个体/样本,需具有代表性
  • 统计推断(Inference):根据样本特征推断总体特征,若抽样方法合理则会具有较高可靠性

统计学核心准则:针对特定总体,通过概率抽样获取样本,利用统计推断分析总体特征,并量化推断的变异性

  • 利用概率从总体中抽取少量样本,通过样本特征推断总体特征
  • 量化推断的变异性:由于仅测量样本而不是总体,推断结果必然存在不确定性,需要评估这种推断有多大概率是准确的

数据共享:基因组数据分析中不可或缺的环节,一套完整的共享数据集应包含四部分

  • 原始数据(Raw Data):未经过任何处理、计算、汇总或删除的数据,基因组研究中通常是原始测序读段(FASTQ/BAM文件) 是相对概念,测序仪输出的序列读段对研究者而言是原始数据,但测序仪生成读段的原始图像对测序仪操作人员而言才是原始数据
  • 整洁数据(Tidy Data):经过处理和清洗,易于分析和交互的数据,需要具备四个条件
    • 每列对应一个变量
    • 每行对应一个观测值
    • 每种数据类型对应一个表格
    • 若存在多个表格,需有关联标识(linking indicator) 例如基因组数据可分为测序数据样本表型,两者通过样本id关联
  • 代码本(Code Book):描述整洁数据中的每个变量及其取值,包括变量名称、含义、单位等无法直接嵌入数据文件的信息
  • 流程说明(Recipe):从原始数据生成整洁数据和代码本的完整步骤,常用形式为脚本(script)——无需原分析者干预,任何人都能运行的指令集合,例如R和Python代码,输入为原始数据,输出为整洁数据,且不包含任何需手动调整的参数 若无法提供脚本,需提供详细的步骤说明,包括所有软件的版本、参数设置等,但不推荐这种方式

数据可视化(绘图)的核心原则

  • 展示原始数据:在均值+置信区间基础上,叠加了原始数据点,这样就可以展示样本量大小、判断是否存在异常值
  • 合理处理重复数据:例如分析技术重复(同一样本重复检测)时,常用散点图(x轴为重复1,y轴为重复2)判断相关性,此时为避免大量数据集中在某一小部分区域,需进行数据缩放(对数转换等方法)
  • 选择合适的绘图类型:例如比较两样本时,除了散点图,还可用Bland-Altman图(x轴为两样本值的和,y轴为两样本值的差),可以更直观展示“低表达基因的差异更大”
  • 避免Ridiculograms(荒谬图?):外观精美但信息量极少的图,因为统计绘图的核心目标是传递信息,而非美观,需确保图的可读性和信息密度

样本量的计算

  • 应基于总体变异性,而不是预算(样本量=总预算/单次检测成本)
  • 核心是检验效能:若总体中存在真实效应,实验能检测到该效应的概率,取决于样本量、两组均值差异(效应量)、数据变异性(标准差) 检验效能曲线:效应量-样本量,效应量越大、样本量越大,检验效能越高。在实验设计前可通过该曲线判断“当前样本量能否检测到预期效应”
  • 若已知效应方向(例如某癌症样本的某基因表达量一定高于对照样本),可适当减少样本量,因为方向信息可以降低推断的不确定性

基因组数据的三种变异性

  • 表型变异性(Phenotypic Variability):组间差异,例如癌症样本和对照样本,是关注的重点
  • 测量误差(Measurement Error):所有基因组技术都存在误差,需考虑仪器检测精度、读段定量准确性等
  • 自然生物变异性(Natural Biological Variability):即使两个健康、表型完全一致的的个体,其基因组指标也存在差异 新技术可能降低测量误差,但无法消除自然生物变异性
统计显著性与P值

t-statistic:(Y组均值-X组均值)/变异性度量

  • 变异性度量:由Y组方差和X组方差计算而来
  • 核心逻辑是:用变异性度量衡量均值差异,若差异在变异性度量下很大(t值大),则差异可能真实,反之差异则可能是由随机因素导致

零假设(null hypothesis):假定为真的某种假设,通常表达为总体参数等于某个固定值。 例如,“这个群体的平均年龄是50岁”、“这个药物对治疗癌症没有作用”等等

P值:在零假设成立的条件下,观察到当前统计量或更极端统计量的概率,用于评估观察到的数据与零假设下期望的数据之间的差异。不是零假设或非零假设成立的概率,也不代表统计证据的强度(如P=0.001不代表证据比P=0.05更强)

  • 计算P值:将两组标签随机打乱(如部分X组样本被分配到Y组,部分Y组样本被分配到X组),多次重复该过程,得到随机统计量分布(理论上不应存在组间差异);P="随机统计量绝对值"≥"原始统计量绝对值"的次数/总置换次数
  • “P<0.05为显著”的指标实际上并无科学依据,只是约定惯例,不能过度依赖

多重检验问题:同时分析多个数据集,例如分析“全基因组所有基因的表达”、“数十万甚至数百万个DNA变异”,传统的P值判断不适用于同时进行大量假设检验

  • 多重检验的核心问题:P值的均匀分布——当零假设成立(两组无差异)时,P值服从0-1的均匀分布(5%的P值<0.05,20%的P值<0.2,以此类推),这意味着即使两组无关联,若进行1000次检验,也会有50次P<0.05
  • 解决方法:两种关键误差率
    • 家族错误率(Family-Wise Error Rate, FWER):在所有检验中,至少出现1个假阳性(无差异却判定为有差异)的概率。若FWER控制在0.05,意味着所有检验中,假阳性的概率≤5%。适用于不允许任何假阳性的场景(如药物安全性检验)
    • 错误发现率(False Discovery Rate, FDR):在所有判定为显著的结果中,假阳性所占的比例。允许存在少量假阳性,适用于需发现更多潜在关联的场景(如基因组关联研究) FDR下显著结果更多不代表真实差异更多,仅因误差率标准不同
  • P值hacking:通过调整数据或分析方法,人为制造统计显著的结果,即使原始分析无显著关联 需要在查看数据前,预先制定数据分析计划并严格执行,不随意更改检验方法、样本量或变量定义;并如实报道阴性结果(P>0.05),避免仅发表显著结果

混杂因素:与两个变量都相关,且可能导致“两个变量看似有关联,实则无直接关联”的变量。例如成年人鞋码大、识字能力强,小孩子鞋码小、识字能力弱,错误结论“鞋码大小影响识字能力”,实际上年龄才影响识字能力,这里“年龄”就是混杂因素

  • 基因组研究中最常见的混杂因素:批次效应——因样本检测批次不同导致的虚假差异,来源包括检测技术变化、试剂批次不同、仪器状态差异、样本储存条件变化等等。例如“不同种族的基因表达差异”的研究,发现78%的基因显著差异表达,原因是欧洲裔样本和亚裔样本检测时间不同,导致了批次效应

如何避免批次效应

  • 随机化(Randomization):将实验组和对照组随机分配到不同批次,打破处理组与批次的关联。例如每批检测都包含“部分癌症样本+部分健康样本”,避免“一批全是癌症样本,另一批全是健康样本”
  • 分层(Stratification):针对已知的混杂因素(如性别、检测日期),在实验设计阶段就平衡分组。例如某小鼠实验需“20只雄鼠、20只雌鼠,每组10只作为实验组、10只对照组,每天检测4只”,实际操作中应该“每周检测雌性实验组、雌性对照组、雄性实验组、雄性对照组各1只”,而不是“第一周检测所有雌性对照组,第二周检测所有雄性实验组”

如何避免批次效应的其它方法

  • 平衡设计:实验组与对照组的样本量尽可能相等
  • 重复检测:技术重复(同一样本重复检测,评估技术稳定性)和生物重复(重复检测不同个体的样本,评估生物变异性)
  • 设置对照:阴性对照(已知无效应的样本,验证技术无假阳性)和阳性对照(已知有效应的样本,验证技术能检测到真实效应)

//span[@class=”css-4s48ix”] \n|[MUSIC]|»|[[a-zA-Z]+:] 请为我翻译一下内容并总结主要知识点: