并行程序设计时使用torque管理机群出现的问题求解答~~
我们实验室用两台服务器和三台pc机构建了一个小型的集群,在Ubuntu Linux下用torque-3.0.1管理机群来实现mpi并行计算。torque安装好后所有节点都显示free,提交任务后没有反应,如下:smt4@smt4:~/torque/torque-3.0.1$ qsub hello.pbs
115.smt4
smt4@smt4:~/torque/torque-3.0.1$ qstat -a
smt4:
Req'dReq'd Elap
Job ID Username Queue Jobname SessID NDS TSK Memory TimeS Time
-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----
115.smt4 smt4 batch job1 -- 1 2 --100:0 R --
按道理说这个任务是一个最简单的helloworld c程序,应该很快便出结果的,为什么一直显示的是R。
还有在删除任务的时候使用qdel <任务编号>会显示如下:
smt4@smt4:~/torque/torque-3.0.1$ qdel 115
qdel: Server could not connect to MOM 115.smt4
只能用qdel -p强行删除。检查/var/spool/torque/mom_prive/config设置如下:
$pbsserver smt4
$logevent 255
smt4是我的server机名。 上面两个问题困扰我很久了,刚接触高性能计算这方面,还请各位见谅,小弟我先谢谢了!
页:
[1]