|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
x
我们实验室用两台服务器和三台pc机构建了一个小型的集群,在Ubuntu Linux下用torque-3.0.1管理机群来实现mpi并行计算。torque安装好后所有节点都显示free,提交任务后没有反应,如下:
smt4@smt4:~/torque/torque-3.0.1$ qsub hello.pbs
115.smt4
smt4@smt4:~/torque/torque-3.0.1$ qstat -a
smt4:
Req'd Req'd Elap
Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time
-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----
115.smt4 smt4 batch job1 -- 1 2 -- 100:0 R --
按道理说这个任务是一个最简单的helloworld c程序,应该很快便出结果的,为什么一直显示的是R。
还有在删除任务的时候使用qdel <任务编号>会显示如下:
smt4@smt4:~/torque/torque-3.0.1$ qdel 115
qdel: Server could not connect to MOM 115.smt4
只能用qdel -p强行删除。检查/var/spool/torque/mom_prive/config设置如下:
$pbsserver smt4
$logevent 255
smt4是我的server机名。 上面两个问题困扰我很久了,刚接触高性能计算这方面,还请各位见谅,小弟我先谢谢了! |
|