Fwd: Re: HelpDesk Nv3 / n°=191007 : Re: Accès à plus de coeurs sur caparmor ?
Je pense que ça peut être utile. Si j'ai bien compris on a le choix du nombre de coeurs utilisés par ISIS (jusqu'à 256) et on n'a donc pas besoin de faire une demande à chaque fois en fait ? -------- Message original -------- Sujet: Re: HelpDesk Nv3 / n°=191007 : Re: Accès à plus de coeurs sur caparmor ? Date : Wed, 20 Nov 2013 16:10:53 +0100 De : Denis Croizé-Fillon <Denis.Croize.Fillon@ifremer.fr> Pour : GASCHE <Loic.Gasche@ifremer.fr> Bonjour, En reprenant votre échange avec Tina, je vois que vous utilisez 8 coeurs actuellement. J'en déduis donc que vous utilisez la file d'attente parallel8, est-ce bien cela ? La réservation des coeurs pour les jobs est déterminée par les paramètres PBS de votre script mais également par la queue que vous utilisez pour le job. Voici les files parallèles accessibles par tous. Le nombre de coeurs max utilisable est indiqué dans le nom, la durée max (en heure) est indiquée en seconde colonne parallel256 18:00:00 parallel32 48:00:00 parallel64 24:00:00 parallel8 72:00:00 Des exemples de paramètrage pour PBS sont disponibles sous /export/home/services/exemples/PBS/ En particulier, vous avez la réservation des noeuds de calculs (select) la réservation des coeurs (ncpus), la réservation mémoire (lmem) et l'indication de la file d'attente du gestionnaire (parallel*) Si vous avez des questions ou si votre logiciel nécessite des conditions particulières (je ne connais pas le produit), n'hésitez pas à nous en faire part. Vous pouvez également commencer par un test sur 16 coeurs (2 noeuds) avant de passer à 256 coeurs car le temps d'attente après envoi du job est plus long. Bonne fin d'après-midi, Denis
Bonjour,
J'aurais besoin de pouvoir accéder à la queue permettant d'utiliser 256 coeurs avec ISIS-Fish sur caparmor, serait-il possible d'obtenir l'autorisation d'y accéder ?
Cordialement.
Loïc Gasche
Le 19/11/2013 15:44, Tina Odaka a écrit :
Hi, That's not how it work, Isis -fish had a special que to have access to 256 sequential job at a time I there is a place
Can you plz send answer all to this e-mail and denis, and to assistance@ ifremer.fr and ask to authorize that you use this queu
You have to ask code Lutin or your colleague how to modify your default que on Isis-fish to be used under your configuration , we do not know that
Regards, Tina
19 nov. 2013 06:39?Loic GASCHE<Loic.Gasche@ifremer.fr> ??????:
Hi Tina,
Yes I use Isis-Fish.
We are running a bit late on our schedule so I am not really sure I can wait untill next week. But I think someone I work with (Sigrid) had access to a lot of cores and does not use them at the moment so maybe we can use her account to run our simulations (if she still has access to all these cores).
Le 19/11/2013 14:34, Tina Odaka a écrit :
Hi, I am out at US this week, can you wait untill next week?
You use Isis-fish? If not Plz let me know how you run your job for the moment, by Sending the location ( path) And name of your script at caparmor To Assistance@ifremer.fr With cc to my e-mail address
Thanks, Tina
19 nov. 2013 01:02?Loic GASCHE<Loic.Gasche@ifremer.fr> ??????:
Bonjour Tina,
Je vais bientôt avoir besoin de faire tourner un grand nombre de simulations assez lourdes sur caparmor.
Je n'ai pour l'instant accès qu'à très peu de coeurs (8 je crois), ce qui sera largement insuffisant pour ce que j'ai à faire.
On m'a dit qu'il était possible d'avoir accès au maximum à 256 coeurs. Est-ce vrai ? Est-il possible que j'aie accès à ce nombre de coeurs pour faire tourner mes simulations ?
Loïc
Le 20/11/2013 16:49, Loic GASCHE a écrit :
Je pense que ça peut être utile.
Si j'ai bien compris on a le choix du nombre de coeurs utilisés par ISIS (jusqu'à 256) et on n'a donc pas besoin de faire une demande à chaque fois en fait ? Dans mes souvenir, les utilisateurs d'isis n'avait pas accès à ces queue. Mais ca, c'était avant ;)
Ca marche: 5931602.service0 simulation-sim_ lgasche 00:02:52 R parallel8 5931603.service0 simulation-sim_ lgasche 0 Q parallel64 Dans la configuration de caparmor, à la ligne "Argument qsub" tu peux ajouter "-q parallel8" pour utiliser cette queue. -- Éric Chatellier - Code Lutin Tel: 02.40.50.29.28 - http://www.codelutin.com
Le 20/11/2013 18:19, Eric Chatellier a écrit :
Le 20/11/2013 16:49, Loic GASCHE a écrit :
Je pense que ça peut être utile.
Si j'ai bien compris on a le choix du nombre de coeurs utilisés par ISIS (jusqu'à 256) et on n'a donc pas besoin de faire une demande à chaque fois en fait ? Dans mes souvenir, les utilisateurs d'isis n'avait pas accès à ces queue. Mais ca, c'était avant ;)
Ca marche: 5931602.service0 simulation-sim_ lgasche 00:02:52 R parallel8 5931603.service0 simulation-sim_ lgasche 0 Q parallel64
Dans la configuration de caparmor, à la ligne "Argument qsub" tu peux ajouter "-q parallel8" pour utiliser cette queue.
J'ai recu toute la nuit des messages d'erreur de caparmor : Hello lgasche, your job 5931603.service0, jobname simulation-sim_ using 33 cores have performance ratio as 0.00. Your real time (wall time) is 03:39 where as your CPU time is 00:00. This job blocks 33 cores, thus your cpu time should get closer to 33 * your real time (wall time). If you can improve the performance of your job, your calculation runs faster (and you can make economy of computational resource). Please check your code, and see if you do not do unnecessary io access or bad usage of MPI or OpenMP, or running non optimised paralleljob. This is an automatic e-mail from caparmor. Apparemment il n'est pas content car le job 5931603 ne tourne pas. Ce qui est marrant c'est qu'il dit que ce job tourne sur 33 coeurs... Est-ce que je mets fin à ce job ? Le jour ou j'ai besoin de plus de 8 coeurs il me suffit donc de taper -q parallel nbCoeurs pour utiliser une des queues jusqu'à 256 ? Dans son mail Denis indique que les queue ont un temps limité. Par exemple 18 heures pour la 256 coeurs. Qu'est-ce que cela signifie ? Que se passe-t-il si mon AS n'a pas fini de tourner après 18 heures ? Loïc
Le 21/11/2013 08:44, Loic GASCHE a écrit :
J'ai recu toute la nuit des messages d'erreur de caparmor :
Hello lgasche, your job 5931603.service0, jobname simulation-sim_ using 33 cores have performance ratio as 0.00. Your real time (wall time) is 03:39 where as your CPU time is 00:00. This job blocks 33 cores, thus your cpu time should get closer to 33 * your real time (wall time). If you can improve the performance of your job, your calculation runs faster (and you can make economy of computational resource). Please check your code, and see if you do not do unnecessary io access or bad usage of MPI or OpenMP, or running non optimised paralleljob. This is an automatic e-mail from caparmor.
Apparemment il n'est pas content car le job 5931603 ne tourne pas.
Ce qui est marrant c'est qu'il dit que ce job tourne sur 33 coeurs...
C'est moi qui ai lancé deux fois le même jobs sur deux files différentes.
Est-ce que je mets fin à ce job ?
Oui.
Le jour ou j'ai besoin de plus de 8 coeurs il me suffit donc de taper -q parallel nbCoeurs pour utiliser une des queues jusqu'à 256 ?
Non, c'est "parallel8", ou "parallel256" (sans espace) Il n'y a que 5 ou six file spécifiquement disponibles.
Dans son mail Denis indique que les queue ont un temps limité. Par exemple 18 heures pour la 256 coeurs. Qu'est-ce que cela signifie ? Que se passe-t-il si mon AS n'a pas fini de tourner après 18 heures ? C'est une contraintes de caparmor et plus spécifiquement de la politique d'allocation des ressources sur les super calculateurs. Ils veulent bien que tu prennes plus de coeurs, mais à condition que tu les "monopolise" moins longtemps.
C'est à toi de voir suivant ta région. Si tu pense que l'AS prend plus de 18 heures, il faut que tu utilises moins de coeurs. Sinon caparmor tuera les jobs trop longs. -- Éric Chatellier - Code Lutin Tel: 02.40.50.29.28 - http://www.codelutin.com
participants (2)
-
Eric Chatellier -
Loic GASCHE