遗传学相关
r-biobaseedx课程Genetics: The Fundamentals笔记
写在前面:本篇教程来自edx课程Genetics: The Fundamentals
贝叶斯定理在遗传概率计算中的应用:例如对于X隐遗传,已知某健康个体的母亲为XᴬXᵃ,父亲为XᴬY,求该个体为携带者XᴬXᵃ的概率,此时可以知道概率为1/2.但如果又已知该个体生育了一个正常儿子XᴬY,此时为携带者的概率就不是1/2
-
定义事件A为“是携带者”,B为“生育正常儿子”,求P(A B)(已知生育正常儿子,是携带者的概率) -
P(A)=1/2 P(B A)=1/2 => P(非A)=1/2 P(B 非A)=1 -
P(B)=P(A)*P(B A)+P(非A)*P(B 非A)=3/4 -
P(A B)=P(B A)*P(A)/P(B)=1/3
染色体分离异常:常染色体非整倍体多致死(除21三体综合征等少部分情况),性染色体非整倍体通常可存活
- 减数分裂I不分离:同源染色体未分离,配子含同源染色体
- 减数分裂II不分离:姐妹染色单体未分离,配子含姐妹染色单体
- 案例:单亲二体(uniparental disomy)——配子含两条同源染色体,受精后丢失一条,导致两条染色体均来自同一亲本。会导致印记障碍(imprinting disorders)——人类约50个基因存在基因组印记(父源和母源等位基因表达不同,如父源等位基因激活、母源沉默,或反之),单亲二体可能存在两个沉默等位基因或两个激活等位基因,导致基因表达量异常,进而引发疾病
基因连锁程度:
- 不连锁(重组率=50%):非同源染色体或同源染色体远距
- 弱连锁(重组率<50%,亲本型略多):同源染色体上距离较远
- 弱连锁(重组率≈50%,几乎全为亲本型):同源染色体上距离很近
遗传距离(单位:厘摩cM):衡量基因间重组频率,cM=100×(重组型配子数/总配子数),1cM=1%重组率
- 标准差:泊松分布,标准差=√(重组型配子数)。遗传距离可写作”100×(
重组型配子数/总配子数)±标准差” - 局限性:>50cM时,多次重组导致重组率低估,遗传距离趋于50cM,超过此值,无法区分基因是“不连锁”还是“连锁但距离极远”
遗传距离与物理距离(碱基对bp):遗传距离(cM)=物理距离(Mb, 百万碱基对)×重组率(cM/Mb)
- 不同生物的重组率差异显著:人类1.3cM/Mb,酵母360cM/Mb,单细胞生物重组率远高于多细胞生物,病毒重组率更高
- 不同生物的最大基因大小不同,对应的遗传距离也不同:人类最大的基因约2.3Mb,对应遗传距离=2.3×1.3≈3cM,果蝇最大的基因约0.005Mb,对应遗传距离=0.005×360≈1.8cM
基因定位的应用:
- 判断突变是否同基因:若
两突变的遗传距离>该物种最大基因的遗传距离,则为不同基因 - 通过DNA标记(SNP等)与基因的连锁关系,可实现更精细的基因定位
DNA标记(DNA Markers):基因组中已知位置的、本身通常不编码功能产物的多态性位点,用于基因定位/精细作图。使用DNA标记定位时,需注意表型亲本需为标记杂合子(仅杂合子能观察标记与表型的共分离),并明确子代标记是来自父本还是母本
- 简单序列重复(Simple Sequence Repeats, SSR):基因组中广泛存在的2-4碱基重复序列,重复次数在个体间可变(通常20-100次)。使用结合重复序列两侧保守区的引物进行PCR扩增,琼脂糖凝胶电泳区分片段长度(重复次数越多,片段越长)。可用于亲子鉴定、法医鉴定(精准识别个体)
- 单核苷酸多态性(Single Nucleotide Polymorphisms, SNP):基因组中单个碱基的差异,数量极其庞大(人类基因组中约有1000万个),分布密集,覆盖全基因组,可实现超高分辨率定位,是全基因组关联研究GWAS的核心标记
DNA测序与基因定位:
- 测序读段比对:对目标个体测序,将读段比对到参考基因组,识别个体与参考基因组的差异,定位可能的致病位点
- 基于Pool测序的基因定位:将多个含目标表型的个体DNA混合测序,分析基因组中多态性位点的频率。在含目标表型基因的染色体中,靠近目标基因的多态性位点重组率发生偏离。无需单个个体测序,降低成本
如何检测人类疾病的遗传(确定致病基因):
- 全基因组测序:无遗漏,可发现新变异,但成本高、数据量大、筛选难度大
- 全外显子组测序:假设“致病突变多位于编码区”,成本低,目标区域明确,但可能遗漏非编码区致病突变
- 连锁分析(利用SSR等标记):利用标记与致病基因的共分离定位,无需预先知道基因功能,但依赖系谱数据,分辨率受标记密度限制
trio测序:对患者及其父母进行测序,之后对比已知变异数据库,排除人群中普遍存在的常见变异,寻找患者特有的、父母无的新发突变
- 适用于病因不明的罕见病:患者临床表现与已知疾病不匹配,且缺乏双生子研究等遗传数据
Informative Meiosis(信息性减数分裂?):能明确“标记的两个等位基因与致病基因的两个等位基因分别如何共分离”的减数分裂
- 例如常显遗传中,患者(Dd,SSR基因型AB)×正常(dd,SSR基因型CE),子代患病且SSR基因型位A/E,则可明确D与A共分离,是Informative Meiosis;若父母SSR基因型为AA×BB,子代AB,则不能区分D与哪个A公分离,不是
Phase(相位?):标记等位基因与致病基因等位基因的连锁关系(即哪些等位基因来自同一条亲本染色体)
- 患者(Dd,SSR基因型AA)×正常(dd,SSR基因型BB),子代AB,则相位为
D-A和d-B
LOD得分(Logarithm of the Odds Score, 对数优势得分):判断标记位点与致病基因是否连锁的统计指标
-
LOD=log~10~[P(数据 连锁, 距离为θ)/P(数据 不连锁)] - θ:遗传距离(重组率),θ=0.01表示1cM
-
P(数据 连锁,θ):假设标记与致病基因连锁(遗传距离为θ)时,观察到当前系谱数据的概率 -
P(数据 不连锁):假设标记与致病基因不连锁(重组率为50%)时,观察到当前数据的概率
- LOD≥3认为标记与致病基因存在显著连锁,LOD≤-2排除连锁
- 具有可加性,多个家系的LOD可累加
LOD得分的计算:常显,患者(Xᴰ/X⁺,SSR A/A)×正常(X⁺/X⁺,SSR B/B),子代(Xᴰ/X⁺,SSR A/B),检测到4个信息性减数分裂产物,其中3个非重组型(Xᴰ-A或X⁺-B)、1 个重组型(Xᴰ-B)
- θ=重组型配子数/总信息性配子数=1/4=0.25
-
P(数据 连锁, θ=0.25):非重组型配子概率=(1-θ)/2=0.375,重组型配子概率=θ/2=0.125,概率=0.375³×0.125¹≈0.00659 -
P(数据 不连锁):每种配子概率=1/4,概率=(1/4)⁴≈0.00391 - LOD=log~10~(0.00659/0.00391)≈0.23<3,无法确认连锁
相关数据库:
- 在线人类孟德尔遗传数据库(OMIM):收录已发现的孟德尔性状及致病基因,是人类孟德尔遗传研究的核心参考
- 罕见基因组计划(Broad Institute):通过家系测序助力罕见病病因发现,提供样本收集与分析平台
- NCBI的dbSNP:SSR/SNP数据库,收录人类基因组中已知的SSR和SNP位点,为连锁分析提供标记资源
N值与C值:
- N:单倍体细胞中不同染色体数量(人类N=23)
- C:单倍体细胞的基因组大小(人类1C≈32亿bp)
- 单倍体细胞的DNA含量为1C,未复制的二倍体细胞为2C;复制后的二倍体细胞虽仍为2N染色体,但因每条染色体复制为姐妹染色单体,DNA含量变为4C