受人之托,总算在本地安装好了Torque作业管理系统。网上的大多数教程都是基于集群设置,几乎没有针对单机的配置方案,也难怪,毕竟这东西还是集群上用的多。拾到了两天,总算能一台服务器即做服务节点,又做计算节点了。

一张图解决服务节点和计算节点的关系——242dd42a2834349b0e8c1eaecbea15ce36d3be16

 

系统要求:Ubuntu12.04+或者Mint14+

具体设置:

1.获取本地Hostname,echo $HOSTNAME。修改hosts,注销127.0.1.1.

127.0.0.1   localhost改成127.0.0.1 localhost xxxxx torqueserver calnode1。其中,xxxx是HOSTNAME。

2.安装torque包,apt的干活:

$ sudo apt-get install torque-common libtorque2 libtorque2-dev torque-server torque-scheduler torque-mom torque-client 

3.初始化:

$ sudo qterm  // 先终止服务

$ sudo bash /usr/share/doc/torque-common/torque.setup $USER torqueserver  // 建立默认服务器和队列,并把自己列为管理员

$ qmgr -c ‘print server’  // 查看默认配置的服务和队列

第三个命令,会列出一些列的东西,暂时无视掉。

4.配置计算节点,服务节点(其实就是本机了)

下面的步骤都要切换到root权限配置,即便是sudo 也会提示权限不足。

(1)创建服务节点

创建server_name文件,指明服务节点的名称为torqueserver

# echo “torqueserver” > /var/spool/torque/server_name

(2)添加计算节点 

创建server_priv/nodes文件,指定利用名为calnode的节点的4个核做计算(具体几个核视个人情况而定)

# echo “calnode1 np=4” > /var/spool/torque/server_priv/nodes

(3)配置计算节点

创建mom_priv/config文件,告诉mom向IP为127.0.0.1的服务节点汇报

# echo “$pbs_server = 127.0.0.1” > /var/spool/torque/mom_priv/config

5.结束配置,第一次启动。

首先,关闭所有服务,

$sudo pkill “pbs_*”

第一次启动

$ sudo qterm -t quick  #输入y。

启动所有服务

$sudo pbs_server

$sudo pbs_sched

$sudo pbs_mom

6.测试作业

$ echo ‘sleep 20’ | qsub

$ qstat 

如果进程状态是R,则说明没有问题。

以后重启的时候记得启动pbs_server pbs_sched pbs_mom三个进程,或者添加到开机启动项里去。 

作者 hsyyf

《作业管理系统Torque在工作站/单机上的安装和使用》有6条评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注