找回密码
 注册
查看: 4962|回复: 0

并行程序设计时使用torque管理机群出现的问题求解答~~

[复制链接]
发表于 2011-5-12 09:40:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

x
我们实验室用两台服务器和三台pc机构建了一个小型的集群,在Ubuntu Linux下用torque-3.0.1管理机群来实现mpi并行计算。torque安装好后所有节点都显示free,提交任务后没有反应,如下:
smt4@smt4:~/torque/torque-3.0.1$ qsub hello.pbs
115.smt4
smt4@smt4:~/torque/torque-3.0.1$ qstat -a

smt4:
                                                                         Req'd  Req'd   Elap
Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time
-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----
115.smt4             smt4     batch    job1                --      1   2    --  100:0 R   --
按道理说这个任务是一个最简单的helloworld c程序,应该很快便出结果的,为什么一直显示的是R。
还有在删除任务的时候使用qdel <任务编号>会显示如下:
smt4@smt4:~/torque/torque-3.0.1$ qdel 115
qdel: Server could not connect to MOM 115.smt4
只能用qdel -p强行删除。检查/var/spool/torque/mom_prive/config设置如下:
$pbsserver smt4
$logevent 255
smt4是我的server机名。   上面两个问题困扰我很久了,刚接触高性能计算这方面,还请各位见谅,小弟我先谢谢了!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表