加速下一代测序工作负载,cpu怎么看

怎么看 2
加速下一代测序工作负载 目录 简介..............................................................................................................................................................................................................2
性能研究.....................................................................................................................................................................................................2
测试硬件.....................................................................................................................................................................................................2
测试案例.....................................................................................................................................................................................................3 性能指标评测
1:GRCh38+ALT...............................................................................................................................................3
性能指标评测2:Homo_sapiens_assembly38.............................................................................................................5
性能..............................................................................................................................................................................................................6
串行性能................................................................................................................................................................................................6
更多内核与更快时钟............................................................................................................................................................................6
存储性能.....................................................................................................................................................................................................7
结论...........................................................................................................................................................................................................11 技术白皮书 技术白皮书 第
2页 下一代测序(NGS)技术正在快速提升生物技术、医疗保健、制药和生命科学组织的专业能力。
然而,NGS工作负载的巨大需求带来了一系列全新的业务挑战,并对计算资源造成了极大的负担。
在本白皮书中,将使用最近两次性能指标评测的结果帮助公司选择高性能计算(HPC)解决方案以提升测序工作负载的性能,同时展示使用HPEProLiant第九代服务器、英特尔®至强®处理器E5v4产品家族、英特尔®Omni-Path架构(英特尔OPA)和Lustre*软件的英特尔企业版(英特尔EEforLustre*)可以实现的计算效率。
简介 过去数十年,基因组测序发展迅速,达到在不到一天的时间内对整个人类基因组测序且所需费用仅为1,245美元的水平。
1下一代测序(NGS)的迅猛发展正在催生海量的基因数据,对加速发现和开发,确保监管合规性,加速问题解决和降低成本构成了极大的业务挑战。
从计算的角度来看,NGS还会对处理速度、吞吐量、存储和内存产生较高的需求。
为帮助减轻对计算资源造成的负担,测序数据通常需从仪器迁移到更高效的HPC系统,该系统使用共享文件系统来处理海量的基因组和外显子组。
科学家依赖变量分析等标准化的工作流,使用一系列步骤来转换数据,包括比对、变量调用和注释。
组成工作流的应用包括计算高效的并行程序和相对较慢的Java或Python脚本。
性能研究 基于大型参考基因组对序列进行映射的比对是NGS流程的第一个处理步骤。
该步骤可以减少一个数量级的数据量,后续步骤可以进一步降低存储要求。
尽管非常重要,但映射读取(readmapping)步骤通常占用最多的计算资源。
通过免安装的自洽软件包bwakit启用比对步骤,该软件包由脚步和预编译二进制文件组成,为映射读取提供了一种端到端解决方案。
本包中的run-bwamemperl脚本将为使用bwakit中其他程序或的数据的工作流创建和打印映射命令行。
在本研究中,大部分计算时间都用于运行BWA-MEM2,后者可提供基本的映射功能。
bwakit中的其他程序虽然不会占用较多计算资源,但也会生成适当的人类参考基因组,同时利用ALT邻接片段(如果存在)改进映射读取,同时为高覆盖度人类数据执行HLA配型。
测试硬件 使用了三种HPE服务器型号;配置详情请见下表
1。
不同的英特尔至强处理器产品家族决定了服务器的配置选项。
•英特尔至强处理器E5v2产品家族要求使用HPEProLiant第八代服务器,因为它不支持DDR4内存芯片或Omni-Path 架构互连。
•英特尔至强处理器E5v3产品家族要求使用HPEProLiant第九代服务器及运行速度不超过2133MHz的DDR4内存芯 片,因为它不支持2400MHzDDR4内存芯片。
1WetterstrandKA。
(2016)。
DNA测序成本:数据来自NHGRI基因组测序计划(GSP)。
genome.gov/sequencingcostdata2LiH.(2013)。
使用BWA-MEM比对序列读取,克隆序列和装配邻接片段。
arXiv:1303.3997v2[q-bio.GN] 技术白皮书 第3页 •英特尔至强处理器E5v4产品家族要求使用HPEProLiant第九代服务器。
它支持高达2400MHz的DDR4内存。
•英特尔至强处理器E5v3和v4产品家族同时支持InfiniBand和Omni-Path架构互连。

1.本研究所使用服务器的详细描述 HPE服务器型号 HPEProLiantSL230s第八代SE 处理器家族处理器速度处理器型号处理器/节点每节点内核数内存 L3高速缓存互连操作系统 英特尔至强处理器E5v22.4GHzE5-2695v2224256GB1866MHzDDR32DPC12核共享30MBFDRInfiniBandRHEL6.6 HPEProLiantXL230a第九代 英特尔至强处理器E5v32.3GHzE5-2698v3232128GB2133MHzDDR42DPC16核共享40MBFDRInfiniBandRHEL6.6 HPEProLiantXL170r第九代 英特尔至强处理器E5v42.2GHzE5-2698v4240128GB2400MHzDDR42DPC20核共享50MB英特尔Omni-Path架构RHEL7.2 表1所述的HPEProLiantXL170r第九代集群用于本文介绍的每项性能研究中。
如果服务器的原始配置经修改,则会在每个部分完整描述这一修改。
测试案例 性能指标评测1:GRCh38+ALT Run-bwamem被用于基于hs38a映射10,000,009101bp的综合数据序列,hs38a是FastA格式的人类参考基因组,由GRCh38(包括染色体,未入选和未本地化的邻接片段)和EBV,及ALT邻接片段组成。
使用能够处理整个人类基因组的BWT-SW算法提前计算hs38a的BWT索引。
Run-bwamem打印以下映射用命令行:catr0-3000000.fq\|./bwamem-pt{NTHREAD}hs38a.fa-2>out.log.bwamem\|./k8./bwa-postalt.jshs38a.fa.alt\|./samtoolsview-1->out.aln.bam; 注NTHREAD是系统上使用的并行量。
技术白皮书 第4页 处理步骤如下:
1.将序列数据读取到内存并发送给BWA。

2.使用BWA-MEM算法执行基本映射功能,该算法针对处理最高100bp的Illumina序列读取而设计。

3.使用用于Java脚本的k8解释器来运行bwa-postalt.js,这是后期处理与ALTcontigs/decosy/HLA基因比对的Java脚本。

4.使用SAMtools3,4将数据从SAM转换为BAM格式。
完成这些处理步骤后,将获得图1和2中显示的结果: '49⍝䔥䎄'49⍝䔥䎄      

标签: #phpmyadmin #服务器 #文件 #怎么看 #文件 #打不开 #放在 #文件