Inspur P8000G100 ユーザーマニュアル

  • こんにちは!浪潮天源基因計算一体機G100/G1000ユーザーマニュアルの内容を理解しています。このデバイスの機能、使用方法、トラブルシューティングなど、ご質問があればお気軽にお尋ねください。マニュアルには、ユーザーフレンドリーなインターフェース、事前定義されたワークフロー、様々なバイオインフォマティクスソフトウェアの統合など、このデバイスの主要な機能が詳しく説明されています。
  • 一体機のIPアドレスを取得するにはどうすれば良いですか?
    大容量のファイルのアップロード方法を教えてください。
    ワークフローを作成して再利用するにはどうすれば良いですか?
    内蔵のゲノムデータセットは何がありますか?
1
浪潮天源基因计算一体机用户使用手册
VERSION1.1.2
浪潮(北京)电子信息产业有限公
2
尊敬的用户:
衷心感谢您选用了浪潮天源基因计算一体机。
本手册介绍了天源基因计算一体机的运行环境、实现功能和使用方法,可使使用者
更好地了解本产品的各种特性,充分的发挥本产品的作用。
浪潮(北京)电子信息产业有限公司拥有本手册的版权。
本手册中的内容如有变动恕不另行通知。
如果您对本手册有疑问或建议,请向浪潮(北京)电子信息产业有限公司垂询。
浪潮(北京)电子信息产业有限公司
二零一六年十一月
技术服务电话:
800-860-0011
址:
http://www.inspur.com
址:
北京市海淀区上地信息路 2号创
业园 C1
编:
100085
E-mail
真:
86-10-62988886-6572
址:
http://www.inspur.com
3
目录
1. 整体介绍 ................................................................................................................................................... 4
2. 快速入门 ................................................................................................................................................... 6
3. 主界面介绍 ............................................................................................................................................. 12
3.1 数据的获取和上传 ....................................................................................................................... 13
3.1.1 网页上传 ............................................................................................................................ 13
3.1.2.ftp 上传 ............................................................................................................................ 13
3.1.3.直接下载网络上的数据 ................................................................................................... 14
3.1.4.获取网络数据库的数据 ................................................................................................... 15
3.2. 任务执行和参数选择 .................................................................................................................. 15
3.3 数据集的设置和使用 .................................................................................................................... 16
3.4 数据保存和历史纪录 ................................................................................................................... 17
4. 流程的导出,设置和复用 ...................................................................................................................... 20
4.1. 流程的创建和导出 ...................................................................................................................... 20
4.2. 流程的修改 .................................................................................................................................. 27
4.3. 内置的流程 .................................................................................................................................. 29
5. 用户注册和管理 ...................................................................................................................................... 30
5.1 管理员账户的注册和使用 ........................................................................................................... 30
5.2 普通账户的注册和使用 ............................................................................................................... 31
5.3 用户间的数据和流程共享 ........................................................................................................... 32
6. 常见故障及处理 ...................................................................................................................................... 34
6.1 页面无法访问 ............................................................................................................................... 34
7. 附录 ......................................................................................................................................................... 36
4
1. 整体介绍
浪潮天源基因计算一体机解决方案专为生物信息与基因信息分析需求而设计,在基
因组学、蛋白组学和转录组学等研究领域作为生物信息分析工具及分析流程。浪潮天源
基因一体机基于英特尔架构的设计理念,软硬一体化方案,使其在经济性、易用性及计
算性能等各方面均有较强优势,同事满足不同规模不同类型生物信息分析需求。可为基
因组学研究机构与临床精准医疗事业发展提供强大助力。
浪潮天源基因计算一体机的硬件系统由浪潮的服务器支撑,根据不同的客户需求,
推出了包含 G100G1000 两套不同规格的方案。其中中心级的 G1000 一体机可以为客户
提供高密度和高性能的计算环境,桌面级的 G100 一体机可以满足小型课题组的需求。
其中中心级一体机 G1000 解决方案充分考虑了用户的需求,结合数据的产出量,依照软
件的应用特征设计。硬件配置按用户实际数据量及用户数进行配置。方案配置中胖瘦节
点以一定比例有效结合,瘦节点主要进行比对、注释和 snp 查找等内存需求相对较小、
计算相对密集的计算;胖节点主要进行拼接等内存消耗较大的的操作。
在软件层面,在浪潮天源基因计算一体机中,涵盖了常见的生物信息学软件、生物
信息学分析流程以及生物信息学的数据集:
整合了数据分析的软件,并构建出数据分析的流程,各个环节可以高效自动管理
和运行。用户在进行全基因组分析的时候,只需要在图形界面下上传完初始数据,
点选全基因组分析流程,选定好参数后,即可一键式的输出分析结果。
整合和预置八种常用的生物信息分析流程。包括全基因组重测序分析流程Whole
Genome Resequencing、外显子分析流程(Whole Exome Sequencing、基因组
从头测序分析流程(Denovo Assembly、转录组测序分析流程 (Transcriptom
Analysis)、小 RNA 分析流程 (Small RNA Analysis)、数字基因表达谱测序数据
分析流程 (Digital Genomic Expression)ChIP-Seq 数据分析流程 (ChIP-Seq)
和甲基化数据分析流程(Methylation Analysis)等。
用户自定义数据处理流程。用户可以根据实际研发需求选择基因计算系统中的软
件组合并自定义流程之后一键式运行,降低部署难度并提高效率,“傻瓜式”操
作降低了使用门槛。
5
自动化的工作流程。用户直接选择预定义的流程,确定参数和数据集后即可提交
任务。以全基因组重测序分析为例, 所涉及的 BWASamtoolsGATK ANNOVAR
等多种软件可以按照预定义的工作流程自动执行。
基于浏览器的简洁高效用户界面。所有系统和软件相关的操作,如工作流程、
数的选择,参考序列的选择等,都可通过图形化的界面操作。
支持远程登录和访问,用户使用和操作不受工作地点的限制。
6
2. 快速入门
系统开机浪潮天源基因计算一体机(以下简称一体机)使用的操作系统是 Redhat
Enterprise Linux 7.0 版本。用户可以采用远程或者 SSH 的方式登录该系统。系统中
已经初始生成了 root inspur 两个账户,两个账户的初始密码均是 111111用户在登
录后请及时使用 root 账户修改这两个账户的密码。
操作界面一览。在浏览器中输入的 IP 地址,就能够看到如下图所示的一体机使用
主界面。该界面包含三个部分,分别是左侧的工具选择界面,中间的工具参数选择和执
行界面和右侧的历史数据保存界面。
提示:如何获取天源基因计算一体机的 IP
在一体机中打开 terminal,输入下面的命令即能看到该机器的 IP
> ip route | sed -r -n 's/.*dev (\w+).*src ([^ ]*) .*/\1 \2/p' | grep enp | awk '{ print
$2 }'
7
登录第一次连接一体机时,会显示登陆界面。在初始状态下,系统已经有一个管理
员账户了,管理员账户的用户名是 [email protected], 密码是 111111
下面以 RNA 序列比对工具 tophat2 的使用流程为例,简要介绍一体机的使用方法。
导入数据在左侧的工具选择节点选择 Get Data, 并从中选择 Upload File from your
computer 选项,在弹出的对话框中,选择 Choose local file, 选择从本地上传数据。
然后选择 tophat2 软件运行所需的 fastq 文件,如下图所示。
数据上传之后,在右侧的历史数据保存界面能看到上传的两个文件
GSM794483_C1_R1_1.fq GSM794483_C1_R1_2.fq 两个文件,可以注意到的是数据在上
传过程中已经进行了解压。并且自动识别为 fastq 格式。
8
由于 tophat2 的输入文件需要时 fastqsanger 格式,所以先进行一下格式转换,点
击历史数据保存界面中的铅笔按钮 ,编辑文件属性,在 Datatype 中选择
fastqsanger,并点击 Save 保存。如下图所示。
执行运算在左侧的工具选择界面搜索并选择 tophat2,出现如下工具参数选择和执行
界面:
在最上面的选项框中选择 Paired-end (as individual datasets) 并在下面的输
入文件选择框中选择上传的两个 fastq 文件 GSM794483_C1_R1_1.fq
GSM794483_C1_R1_2.fq,在 Use a built in reference genome or own from your history
9
选项框中选择 Use a built-in genome, 选择内置的 Drosophia_melanogaster,其他参
数选择默认,并点击 Execute 执行。
10
点击执行后,会得到如下作业正常提交的界面。此时等待程序运行即可。根据数据
的大小,运行时间可能在十几分钟到几个小时之间。本数据集的运行时间大约是 20
钟左右。
查看结果运行结束后,右侧的 tophat2 执行生成的文件从黄色变成绿色。
可以点击 Tophat2 on data 2 and data 1: align_summary 中的眼睛按钮 来查看计
算结果。如下所示。
11
12
3. 主界面介绍
本章主要介绍天源基因一体机的主界面和使用方法。在浏览器中输入天源基因一体
(以下简称一体机)IP 地址就能够看到如下图所示的一体机使用主界面。该界面
包含三个部分,分别是左侧的工具选择界面,中间的工具参数选择和执行界面和右侧的
历史数据保存界面。下面分别介绍各部分的功能和使用方法。
提示:如何获取天源基因一体机的 IP
在一体机中打开 terminal,输入下面的命令即能看到该机器的 IP
> ip route | sed -r -n 's/.*dev (\w+).*src ([^ ]*) .*/\1 \2/p' | grep enp | awk '{ print
$2 }'
13
3.1 据的获取和上传
一体机提供了三种数据上传的方式,分别是通过网页上传,通过 ftp 上传和通过网
络数据库远程获取的方式。
3.1.1 网页上传
在左侧的工具选择节点选择 Get Data, 并从中选择 Upload File from your computer
选项,在弹出的对话框中,选择 Choose local file, 选择从本地上传数据。然后选择
所需上传的文件,如下图所示。
3.1.2.ftp 上传
由于网页上传的方式只能上传小于 2GB 的文件,所以对于较大的文件已经文件数目
较多的情况,推荐使用 ftp 的方式上传。
ftp 上传需要本地安装有 ftp 工具,比如 filezilla此处以 filezilla 为例进行介
绍。如上图所示,filezilla 中输入一体机的 IP个人登录用户名和登录密码进行登
录。并上传所需的文件。
14
上传成功后,在一体机的工具界面选择 Get Data, 并从中选择 Upload File from
your computer 选项,在弹出的对话框中,选择 Choose FTP file,勾选相应的文件,
点击 start 开始导入。导入结束后关闭该窗口。
3.1.3.直接下载网络上的数据
在一体机的工具界面选择 Get Data, 并从中选择 Upload File from your computer
选项,在弹出的对话框中,Paste/Fetch data,并把相应的数据文件链接复制到文本框
中,即可点击 Start 开始从网络下载数据,如下图所示。
15
3.1.4.获取网络数据库的数据
Get Data 菜单栏下,除了 Upload File from your computer 选项外,还可以从一
些网络数据库 UCSC genome 数据库,Flymine 数据库等,用户可以自行探索,此处不做
过多的介绍。
3.2. 任务执行和参数选择
天源基因计算一体机现在集成了多达 27 款常见的基因计算相关软件,包括:
序列质量分析软件:
FastQC 0.11.2
序列比对软件:
Bwa 0.7.10
Bowtie2 2.2.6 Bowtie 0.12.7
Tophat2 2.1.0
Blastn
BSMAP
BSSEEKER
CLUSTALW
突变注释软件:
ANNOVAR
排序,格式转换,降噪等工具软件包:
16
Bedtools
Samtools
PICARD
变异检测软件:
GATK2
Dindel
表达水平评估软件:
Cufflinks
序列拼接:
VELVET
ABYSS
Trinity
其他基因计算分析工具:
FindPeaks
Glimmer
Gominer
MACS
miRanda
miRDeep
SOAPsnp
TargetScan
DESeq2
3.3 数据集的设置和使用
很多序列比对软件如 bwabowtie 等需要一个 fasta 格式的基因序列的 reference
在使用过程中,用户可以自行下载各基因组的 reference 文件并上传,然后在工具执行
界面的 Load reference genome from 中选择 History,并选择对应的 reference 文件,
Drosophila.fa。如下图所示:
17
另外,为了方便用户的使用,减少生成 Index 的时间,一体机中已经内置了 5个基
因数据集供序列比对软件如 bwatophat2 等使用。这 5个数据集是:
Arabidopsis thaliana
Drosophila melanogaster
GRCh37
GRCh38
GRCm38
对于内置的数据集,可以在工具执行界面的 Load reference genome from 中选择
Local cache, 并选择上述列表中对应的基因数据。
3.4 据保存和历史纪录
在上传数据和执行计算之后,原始数据和计算结果都被保存在历史记录中,该历史
纪录会被默认设为未命名历史纪录 Unnamed history,单击该处可以修改和命名该历史
纪录,比如,将其命名为 15.11.09_test1
18
除此之外,针对不同的计算项目,可以设置不同的 history单击历史数据保存界面
按钮,在下拉菜单中可选择 Create New 来创建新的历史纪录。
19
当有多个历史纪录时,在上述下拉菜单中选择 Saved Histories。弹出如下对话框,
在该对话框中,可以切换到想要的历史记录;也可以重命名,删除和永久性的删除
(Delete Permanently)历史纪录。也可以复制某个历史纪录。
20
4. 流程的导出,设置和复用
通常的基因计算过程都包含了多步操作,为了简化多步操作的繁琐,天源基因计算
一体机提供了流程的导出和复用功能。
4.1. 流程的创建和导出
下面以转录组测序为例,介绍流程的导出和复用。如下图所示,在历史记录中有 6
12 个果蝇的转录组测序数据文件,分别是:
GSM794483_C1_R1_1.fq GSM794483_C1_R1_2.fq
GSM794484_C1_R2_1.fq GSM794484_C1_R2_2.fq
GSM794485_C1_R2_1.fq GSM794485_C1_R3_2.fq
GSM794486_C2_R3_1.fq GSM794486_C2_R2_2.fq
GSM794487_C2_R2_1.fq GSM794487_C2_R2_2.fq
GSM794488_C2_R2_1.fq GSM794488_C2_R2_2.fq
现在先对第一对文件 GSM794483_C1_R1_1.fq GSM794483_C1_R1_2.fq 使用 tophat
进行序列比对,并使用 cufflink 进行拼接。
提示:本示例中的数据来源于
Nature Protocols,
7, 562578, (2012)
/