type
status
date
slug
summary
tags
category
icon
password
Chen J, Wang Z, Tan K, Huang W, Shi J, Li T, Hu J, Wang K, Wang C, Xin B, Zhao H, Song W, Hufford MB, Schnable JC, Jin W, Lai J. A complete telomere-to-telomere assembly of the maize genome. Nat Genet. 2023 Jul;55(7):1221-1231. doi: 10.1038/s41588-023-01419-6.

👨‍🏫 T2T组装玉米Mo17基因组的所有10条染色体

237.7× ONT(只有332Gb 153×的高质量ONT数据被用于组装)→ assemble 2.42Gb 包含567个contigs
115.6× Illumina69.4× HiFi + common ONT polish → 19个非冗余contigs覆盖全部剩余的548个contigs并锚定到10个染色体上(basal Mo17 assembly)
 
【69.4× HiFi assemble 整合到basal assembly弥补gaps并对其basal assembly纠错】
ONT reads mapping → 确定6个基因组区域错误(均为low-coverage regions LCRs)
Pacbio contigs → 闭合了5个gaps,校正了5个LCRs
Pacbio contigs → chr2的末端短臂(ONT组装的唯一一个不完整的的端粒区域)
ONT reads → 校正端粒区域(避免端粒重复序列被错误trimmed)
 
【剩下6个gaps】
5个与chr1(gap1和gap2)、chr2(gap3和gap5)和chr(gap_LCR6)中超长的TAG重复有关;1个与chr6上45SrDNA相关;
5个TAG重复:
  • 其中2个使用ultra-long ONT手动close(gap1和gap5),gap2,gap3和gap_LCR6也被扩展了700kb,100kb和1Mb;
  • 但是gap2,gap3和gap_LCR6每一个gap中仍然有一个TAG重复区域没有被ONT跨越(允许一些点突变);
  • 其中gap3,gap_LCR6被BioNano解决,gap2被ONT数据解决;
1个chr6上45SrDNA相关
  • Pacbio HiFi close
 

👨‍🏫 组装工具&参数

【ultra-long ONT】:
NextDenovo:seed_cutoff=130k -n 355 -Q 6 -I 10.44 -S 0.18 -N 2 -r 0.37 -m 4.96 -C 93 -z 14
【HiFi】:
Hifiasm: 默认参数
Canu:-assemble -p Mo17 -d canu_Mo17 genome size=2.3g -pacbio-hifi CCS.fasta;
grid Engine Resource Option = -pe smp THREADS -l mem_total=MEMORY; grid Options= -S /bin/bash -q all.q, ODE.q,asm.q;use Grid=true batMemory=251Gb
【Polish】:
NextPolish【ONT HiFi和Illumina对ONT组装进行polish】:
  • 3×——ultralong ONT + common ONT:task=best rewrite=yes rerun=3
  • 3×——HiFi:task=best rewrite=yes rerun=3
  • 4×——Illumina:task=best rewrite=yes rerun=4
闭合所有gaps后:
  • 提取手动close的gap序列的上下游2Mb区域,使用NextPolish通过ONT数据(3×),HiFi数据(3×)和Illumina(4×)进行polish;
【构建染色体】:
bwa mem比对到高密度遗传图谱,19条contigs非冗余用于构建染色体。其中一条contigs被手动分成2个。
【识别basal Mo17 assembly的局部异常区域】:
  • minimap2将超过10kb的passed ultra-long ONT比对到basal Mo17 assembly,“-x map-ont -r 10000 -N 50”。
Only primary alignments and supplementary alignments (value of FLAG in sequence alignment map (SAM) format file must be 0, 16, 2,048 or 2,064) with minimum query sequence coverage 0.85 were used for further read depth analysis.
  • 碱基覆盖深度由BEDTools进行计算,“genomecov -bga -split”
  • 所有1kb的基因组bin的覆盖深度被计算,低于100和高于250的被定义为LCR和HCR
【整合basal Mo17 assembly和HiFi assembly】:
minimap2将HiFi assembly比对到basal Mo17 assembly:”-x asm5 -f 0.02”。根据比对结果,将HiFi的contigs集成到basal Mo17 assembly中,包括可以跨越gaps的contigs和用于polish basal Mo17 assembly的组装错误的contigs
【TAG重复序列相关的gaps的弥补】:
  • 为了避免gaps的边界可能出现的组装错误,每个gaps两端的侧翼500kb的序列被removed,minimap2将ONT数据迭代比对到trimmed basal Mo17 assembly“-x map -ont -r 10000”。当gap两端重叠时或不可靠时终止迭代(gap1和gap5)。gap2、gap3和gap_LCR6被ONT扩展,但仍然存在sub-gap。
  • sub-gap3和sub-gapLCR6被BioNano延申(Solve 默认参数)。
  • (最麻烦的gap2)接下来,我们尝试确定subgap2的长度。利用所有大于150 kb的45.6× ONT (99.3 Gb)原始ONT reads估计6个连续TAG重复长度大于90 kb的基因组区域的总长度,包括sub-gap2,以及gap1的154.5 kb区域,gap3的210.1 kb区域,gap5的235.4 kb区域和130.4 kb区域,以及Gap_LCR6的128.5 kb区域。首先鉴定出与这6个区域相关的两种类型的reads。一种是可以映射到6个区域的读取。第二种类型是含有长度大于90 kb的连续微卫星重复序列,但不能映射到6个区域。值得注意的是,考虑到长TAG重复序列的ONT reads存在额外的序列错误,并且基因组中没有其他类型的微卫星长度超过90 kb,因此包含连续长度超过90 kb的微卫星的reads(包括非TAG重复序列的微卫星)也被确定为第二类reads。然后,我们将与这6个区域相关的两类reads所包含的TAG重复长度进行汇总,并将其除以数据的平均基因组覆盖率(45.6×)进行归一化,得到6个区域的总长度为1,024.6 kb。在减去已知大小的另外5个TAG重复区域的14个长度后,估计gap2的子间隙长度约为165.6 kb。最终关闭了gap2、gap3和gap_LCR6。
 
技术比较复杂,主要问题在于gap的弥补和纠错,也没有组装出单倍型的基因组。不过也是T2T的先驱文章,值得看看。
 
【毕业随想】-“太阳照常升起”About Me
Loading...