<div dir="ltr">Dear all,<div><br></div><div>Would appreciate any guidance on this situation:</div><div><br></div><div>* Version GE2011p1 running on RedHat6 server whose Hardisk reaches 100% ... system stays up, but qsub starts to fail "cannot connect to Berkeley database" is the error report.</div><div>* space released on hardisk, but qsub still fails. sge_qmaster still running. qconf fails.</div><div>* Decide to restart services: sgeexecd softstopped and sgemaster stopped, then started: fails to come up. "messages" in $SGE_ROOT/$SGE_CELL/spool/<wbr>qmaster says:</div><div><br></div><div><div><div>main|frontend0|E|couldn't open berkeley database "sge": (22) Invalid argument</div><div>main|frontend0|E|startup of rule "default rule" in context "berkeleydb spooling" failed</div><div>main|frontend0|C|setup failed</div></div></div><div><br></div><div>* Decide to repair database according to this post<br></div><div><br></div><div>At first db_verify gave</div><div><br></div><div><div>db_verify: Page 21: invalid next_pgno 25</div><div>db_verify: sge: DB_VERIFY_BAD: Database verification failed</div></div><div><br></div><div>(report adheres to idea that database could not expand due to lack of space, and nextpage ptr is out of sync). Then follow procedure in this post:</div><div><br></div><div><a href="https://arc.liv.ac.uk/pipermail/gridengine-users/2008-October/020911.html" target="_blank">https://arc.liv.ac.uk/<wbr>pipermail/gridengine-users/<wbr>2008-October/020911.html</a><br></div><div><br></div><div>however, new "sge" bdb very small ... empty except for some headers. Still, it passes db_verify fine.</div><div><br></div><div>* sgemaster still fails to come up. "messages" in $SGE_ROOT/$SGE_CELL/spool/<wbr>qmaster now says:</div><div><br></div><div><div>main|frontend0|W|local configuration frontend0 not defined - using global configuration</div><div>main|frontend0|E|global configuration not defined</div><div>main|frontend0|C|setup failed</div></div><div><br></div><div>* Seems to exonerate the database, but I'm not so sure ... database repair was not "satisfying"</div><div>* How to get global configuration? WIth qconf, right? Yes, but it fails of course, sge_qmaster is not up.</div><div><br></div><div>sgemaster does not stay up ... in fact sge_qmaster binary completes and returns $?=0 very quickly. Leaves no processes on system at all. Unusual.</div><div><br></div><div>* current lines of inquiry:</div><div>0. BDB repaired, but GE2011 somehow retains some state of the corrupt databse.</div><div>1. Install a new Gridengine, not before trying this on another server. Beware clobbering current GE2011.</div><div>2. Access corrupt database manually, through api perhaps.Just to gain more knowledge.</div><div><br></div><div>Many thanks for reading.</div><div><br></div><div>Cheers / Ramon.</div><div><br></div></div>