加载页面中...
毕设过程中的结果图汇总 | lwstkhyl

毕设过程中的结果图汇总

涉及到的各种结果图,并不一定都写在正文中

构建Seurat对象和数据预处理

构建Seurat对象

> seu
An object of class Seurat 
93660 features across 243200 samples within 2 assays 
Active assay: RNA (78691 features, 0 variable features)
 1 layer present: counts
 1 other assay present: HERV
> colnames(seu@meta.data)
 [1] "orig.ident"               "nCount_RNA"               "nFeature_RNA"             "nCount_HERV"             
 [5] "nFeature_HERV"            "GSM"                      "group"                    "tissue"                  
 [9] "age"                      "sex"                      "PMD"                      "hist.diagnosis"          
[13] "diag.1"                   "diag.2"                   "diag.3"                   "age.related.plaque.score"
[17] "braak.tangle.stage"       "APOE"                     "dataset"                  "PMI"                     
[21] "Neuropath.Dx.1"           "Neuropath.Dx.2"           "Clinical.Syndrome"        "Plaque.Stage"            
[25] "Plaques.Tangles"          "Braak...Braak.Stage"      "RIN"                      "sample_uid"              
[29] "donor_uid"                "percent_mito"             "percent_ribo"             "HERV_fraction"           
> table(seu$dataset)
GSE157827 GSE174367 
   181653     61547 
> table(seu$group)
    NC     AD 
107420 135780 
> table(seu$orig.ident)
  100    17    19    22    27    33    37    43    45    46    47    50    52    58    66    82    90    96   AD1  AD10 
 4642  3804  3094  2776  3839  2685  3945  4887  4753  3472  3051  2690  2813  2714  2886  2481  2519  4496  6165 16437 
 AD13  AD19   AD2  AD20  AD21   AD4   AD5   AD6   AD8   AD9  NC11  NC12  NC14  NC15  NC16  NC17  NC18   NC3   NC7 
 1841  3898 15607  9430  8736  5895 12623  3204  2679 10269  3560 15727 10951  8492  6899 14572 11821  6439  6408 

质控

过滤前:243200个细胞

> fivenum(filter(seu@meta.data, dataset=="GSE174367")$nFeature_RNA)
[1]   255  2065  2688  3642 15465
> fivenum(filter(seu@meta.data, dataset=="GSE174367")$nCount_RNA)
[1]    500.0   4697.0   7113.0  11324.5 227585.0
> fivenum(filter(seu@meta.data, dataset=="GSE174367")$percent_mito)
[1]  0.00000000  0.01251956  0.04296763  0.14577259 77.45019920
> fivenum(filter(seu@meta.data, dataset=="GSE174367")$percent_ribo)
[1]  0.0000000  0.1723774  0.2286834  0.3007169 10.2821317
> fivenum(filter(seu@meta.data, dataset=="GSE157827")$nFeature_RNA)
[1]    38   948  1618  2783 14543
> fivenum(filter(seu@meta.data, dataset=="GSE157827")$nCount_RNA)
[1]    450   1367   2697   5627 118970
> fivenum(filter(seu@meta.data, dataset=="GSE157827")$percent_mito)
[1]  0.0000000  0.4662729  1.0680017  2.6499303 96.6913580
> fivenum(filter(seu@meta.data, dataset=="GSE157827")$percent_ribo)
[1]  0.0000000  0.2367424  0.3400397  0.5042546 15.1050420

毕设正文和图片1

按细胞/基因阈值过滤后:229813个细胞+3.6w个基因

> scRNA_cells
An object of class Seurat 
50657 features across 229813 samples within 2 assays 
Active assay: RNA (35688 features, 0 variable features)
 1 layer present: counts
 1 other assay present: HERV
> table(scRNA_cells$dataset)
GSE157827 GSE174367 
   171377     58436 
> table(scRNA_cells$group)
    NC     AD 
101216 128597 
> table(scRNA_cells$orig.ident)
  100    17    19    22    27    33    37    43    45    46    47    50    52 
 4371  3612  2977  2607  3640  2589  3717  4570  4528  3229  2817  2599  2744 
   58    66    82    90    96   AD1  AD10  AD13  AD19   AD2  AD20  AD21   AD4 
 2633  2745  2344  2440  4274  6053 16292  1614  3699 15481  9382  8178  5776 
  AD5   AD6   AD8   AD9  NC11  NC12  NC14  NC15  NC16  NC17  NC18   NC3   NC7 
12595   420  2416  9806  1704 15546 10883  8448  4501 14320 11666  6328  6269 

毕设正文和图片11

  • GSE157827主要是依据线粒体比例过高过滤的

毕设正文和图片12

  • GSE174367主要是依据nCount_RNA过滤的,且过滤的细胞较少

过滤双细胞后:207009个细胞

毕设正文和图片13

  • GSM477xxx是GSE157827的样本,双细胞比例较高(大多数在7%-13%)
  • GSM529xxx是GSE174367的样本,双细胞比例较低(大多数在5%左右),与前面的Venn图对应,说明测序质量较好
> seu_filt
An object of class Seurat 
50657 features across 207009 samples within 2 assays 
Active assay: RNA (35688 features, 0 variable features)
 1 layer present: counts
 1 other assay present: HERV
> table(seu_filt$dataset)
GSE157827 GSE174367 
   151686     55323 
> table(seu_filt$group)
    NC     AD 
 90772 116237 
> table(seu_filt$orig.ident)
  100    17    19    22    27    33    37    43    45    46    47    50    52 
 4127  3382  2833  2469  3436  2468  3571  4317  4199  3055  2700  2470  2587 
   58    66    82    90    96   AD1  AD10  AD13  AD19   AD2  AD20  AD21   AD4 
 2493  2617  2237  2332  4030  5581 14207  1538  3442 13495  8303  7266  5250 
  AD5   AD6   AD8   AD9  NC11  NC12  NC14  NC15  NC16  NC17  NC18   NC3   NC7 
10944   402  2288  8621  1622 13441  9482  7545  4164 12576  9995  5759  5765 

毕设正文和图片2

数据预处理+去批次效应

使用harmony去批次效应

毕设正文和图片3

选前30个pc

毕设正文和图片4

分辨率设置为0.1

细胞类型注释

毕设正文和图片5

  • astro:2
  • endo:12
  • mic:6
  • oligo:0、16
  • OPC:3
  • inhib:4、5、10、13
  • excit:1、7、8、9、11、14、15
> table(seu$celltype, seu$group)
           NC    AD
  Astro  9388 12032
  Endo    732  1884
  Excit 26896 31494
  Inhib 12254 15060
  Mic    4346  6060
  Oligo 31245 42753
  OPC    5911  6954
> table(seu$celltype)
Astro  Endo Excit Inhib   Mic Oligo   OPC 
21420  2616 58390 27314 10406 73998 12865

毕设正文和图片7

hERV位点-家族映射

预览 | 下载

hERV总量/class重调情况

全体细胞

所有细胞:

  • 毕设正文和图片8

GSE174367:

  • 毕设正文和图片8_1

GSE157827:

  • 毕设正文和图片8_2

scTE:

  • 毕设正文和图片8_3

各细胞类型

所有细胞:

  • 毕设正文和图片9
  • 毕设正文和图片10

GSE174367:

  • 毕设正文和图片9_1
  • 毕设正文和图片10_1

GSE157827:

  • 毕设正文和图片9_2
  • 毕设正文和图片10_2

scTE:

  • 毕设正文和图片9_3
  • 毕设正文和图片10_3

细胞大类中的hERV家族重调情况

所有细胞:

GSE174367:

GSE157827:

细胞亚群中的hERV家族表达情况

亚群聚类情况汇总:预览 | 下载

family:

毕设正文和图片15

group:

毕设正文和图片17

family_scTE:

毕设正文和图片17_1

family_LTR_scTE:

毕设正文和图片17_2

hERV-gene共表达网络

各细胞类型的gene共表达网络与hERV的相关性

family:

毕设正文和图片21

group:

毕设正文和图片22

family_scTE:

毕设正文和图片22_1

family_LTR_scTE:

毕设正文和图片22_2

各细胞类型的模块分数

注:这里使用hERV group和family的RData都一样,因为这个只影响hERV~gene的相关性,它们的模块都是一样的(下同)

毕设正文和图片23

各细胞类型的各模块GO结果

毕设正文和图片24

毕设正文和图片25

毕设正文和图片26

毕设正文和图片27

毕设正文和图片28

毕设正文和图片29

毕设正文和图片30

其它结果图

各细胞类型的hERV表达量和DE显著性

毕设正文和图片18

共表达网络组合图

总结

主要研究成果

局限性

样本数较少

使用的数据的建库方法是10x Chromium Single Cell 3′ v3——“用poly(dT)引物捕获带poly(A)尾的转录本”,可能会低估或者漏掉不带polyA的ncRNA(非编码RNA),同时TE里面有相当一部分是non-polyA的,所以在hERV计数上大概率会偏低。不过我这个分析主要是AD-NC/不同细胞类型之间的组间比较,或者是共表达这种定性的找趋势,所以在这类不需要精确计数的分析上应该影响不大。当然也不可能说完全没有影响:

  • 之前别人的bulk RNA-seq分析用的是total RNA的测序方法(而不是我这种polyA+的测序方法),这可能是结论有差异的原因之一
  • 我这里能被polyA+的测序方法测出来的hERV读段,可能是hERV中有一定特殊性的片段,比如是剪接到了正常gene中的、或是借用了周围的polyA