nence 发表于 2011-5-12 09:40:21

并行程序设计时使用torque管理机群出现的问题求解答~~

我们实验室用两台服务器和三台pc机构建了一个小型的集群,在Ubuntu Linux下用torque-3.0.1管理机群来实现mpi并行计算。torque安装好后所有节点都显示free,提交任务后没有反应,如下:
smt4@smt4:~/torque/torque-3.0.1$ qsub hello.pbs
115.smt4
smt4@smt4:~/torque/torque-3.0.1$ qstat -a

smt4:
                                                                         Req'dReq'd   Elap
Job ID               Username Queue    Jobname          SessID NDS   TSK Memory TimeS Time
-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----
115.smt4             smt4   batch    job1                --      1   2    --100:0 R   --
按道理说这个任务是一个最简单的helloworld c程序,应该很快便出结果的,为什么一直显示的是R。
还有在删除任务的时候使用qdel <任务编号>会显示如下:
smt4@smt4:~/torque/torque-3.0.1$ qdel 115
qdel: Server could not connect to MOM 115.smt4
只能用qdel -p强行删除。检查/var/spool/torque/mom_prive/config设置如下:
$pbsserver smt4
$logevent 255
smt4是我的server机名。   上面两个问题困扰我很久了,刚接触高性能计算这方面,还请各位见谅,小弟我先谢谢了!
页: [1]
查看完整版本: 并行程序设计时使用torque管理机群出现的问题求解答~~