Impossible de faire fonctionner 1 GPU : WATCHDOG: GPU 2 hangs in OpenCL call, exit

  • -

    Bonjour à tous,

    Je viens de faire l’acquisition d’une nouvelle CG pour mon rig. Une RX580 Sapphire Nitro+, j’en avais déjà une, j’ai donc racheté la même.

    OS : HiveOS
    Intel Pentium G4560
    2 x RX580 Sapphire Nitro +, 1 x RX570 XFX, 1 x RX560 Sapphire Pulse
    Miner utilisé : Claymore cryptonote AMD

    Cependant, il m’est impossible de la faire fonctionner … Après environ 30 secondes de minage, elle s’arrete systématiquement et j’ai l’erreur WATCHDOG: GPU 2 hangs in OpenCL call, exit.
    J’ai essayé tous les profils d’OC possibles et imaginables mais rien ne change. Je ne sais plus vraiment quoi faire 😞

    Cela pourrait-il être un défaut matériel de la carte ?

    Log sur interface Web de HiveOS :

    === Last 50 lines of /var/log/miner/claymore-x/lastrun_reboot.log ===

    23:18:23:565 5bfff700 parse packet: 62
    23:18:23:565 5bfff700 Share accepted (126 ms)!
    23:18:23:565 5bfff700 new buf size: 0
    23:18:45:409 5bfff700 got 242 bytes
    23:18:45:409 5bfff700 buf: {“jsonrpc”:“2.0”,“method”:“job”,“params”:{“blob”:“0707b5d9f9dd05b3d73eb5769119a7ea3df93f4b061754b9f977f86c6ac5256a34c693d986b68c00000000d0888325754678cef7c742c56083617e13b12f1100fc97905114606f79f8169804”,“job_id”:“4871”,“target”:“cf8b0000”}}

    23:18:45:409 5bfff700 parse packet: 241
    23:18:45:409 5bfff700 new buf size: 0
    23:18:45:409 5bfff700 XMR: 10/10/18-23:18:45 - New job from xmr-eu1.nanopool.org:14444 (FAILOVER 2)
    23:18:45:409 5bfff700 target: 0x00008bcf (diff: 1380615203H)
    23:18:45:409 5bfff700 XMR - Total Speed: 1680 H/s, Total Shares: 2, Rejected: 0, Time: 00:04
    23:18:45:409 5bfff700 XMR: GPU0 709 H/s, GPU1 640 H/s, GPU2 0 H/s, GPU3 331 H/s
    23:18:45:451 9effd700 Job changed, drop current round
    23:18:45:451 9effd700 GPU 1, dropped current job (cp 2-4)
    23:18:45:451 9d7fa700 Job changed, drop current round
    23:18:45:451 9e7fc700 Job changed, drop current round
    23:18:45:451 9dffb700 Job changed, drop current round
    23:18:45:521 8d7fa700 Job changed, drop current round
    23:18:45:521 8d7fa700 GPU 3, dropped current job (cp 4)
    23:18:45:521 8cff9700 Job changed, drop current round
    23:18:45:521 8dffb700 Job changed, drop current round
    23:18:45:521 8e7fc700 Job changed, drop current round
    21:18:45:526 9f7fe700 Job changed, drop current round
    23:18:45:526 9f7fe700 GPU 0, dropped current job (cp 2-7)
    23:18:45:527 9ffff700 Job changed, drop current round
    23:18:45:527 b5401700 Job changed, drop current round
    23:18:45:527 b4c00700 Job changed, drop current round
    23:18:48:277 c20dc740 GPU0 t=40C fan=16%, GPU1 t=46C fan=33%, GPU2 t=39C fan=16%, GPU3 t=45C fan=18%
    23:18:48:277 c20dc740 watchdog - thread 0, hb time 2720
    23:18:48:277 c20dc740 watchdog - thread 1, hb time 2492
    23:18:48:277 c20dc740 watchdog - thread 2, hb time 2492
    23:18:48:277 c20dc740 watchdog - thread 3, hb time 2751
    23:18:48:277 c20dc740 watchdog - thread 4, hb time 2802
    23:18:48:277 c20dc740 watchdog - thread 5, hb time 2554
    23:18:48:277 c20dc740 watchdog - thread 6, hb time 2555
    23:18:48:277 c20dc740 watchdog - thread 7, hb time 2826
    23:18:48:277 c20dc740 watchdog - thread 8, hb time 74950
    23:18:48:277 c20dc740 WATCHDOG: GPU 2 hangs in OpenCL call, exit
    23:18:48:277 c20dc740 watchdog - thread 9, hb time 78578
    23:18:48:277 c20dc740 WATCHDOG: GPU 2 hangs in OpenCL call, exit
    23:18:48:277 c20dc740 watchdog - thread 10, hb time 74972
    23:18:48:277 c20dc740 WATCHDOG: GPU 2 hangs in OpenCL call, exit
    23:18:48:277 c20dc740 watchdog - thread 11, hb time 78542
    23:18:48:277 c20dc740 WATCHDOG: GPU 2 hangs in OpenCL call, exit
    23:18:48:277 c20dc740 watchdog - thread 12, hb time 2
    23:18:48:277 c20dc740 watchdog - thread 13, hb time 13
    23:18:48:277 c20dc740 watchdog - thread 14, hb time 2524
    23:18:48:277 c20dc740 watchdog - thread 15, hb time 2524
    23:18:48:277 c20dc740 Rebooting

    Message d’erreur sur miner Claymore :
    WATCHDOG: GPU 2 hangs in OpenCL call, exit
    WATCHDOG: GPU 2 hangs in OpenCL call, exit
    WATCHDOG: GPU 2 hangs in OpenCL call, exit
    WATCHDOG: GPU 2 hangs in OpenCL call, exit
    Rebooting
    With payload
    > Sending “danger”: Claymore Reboot: WATCHDOG: GPU 2 hangs in OpenCL call, exit

    Merci d’avance pour votre aide.

    Le_ChouX 1 Reply
  • -

    @sygmacrypt
    Tu as testé tout les branchements Risers?
    Interverti les Risers et cables?
    Connecté seulement la carte problématique sans OC?

    Tu as moddé le BIOS? Est-ce que tu as repris le même BIOS que ta première RX580? Peut-être une différence entre les mémoires (Donc utiliser un BIOS différent)?

  • -

    Salut @Le_ChouX

    Je n’ai pas encore fait tous ces tests (faute de temps). Je vais essayer ce week-end d’échanger les risers. J’ai essayé sans OC (sur une durée de 5 minutes) et elle a l’air de fonctionner mais je ne sais pas si elle ne reproduira pas l’erreur au bout d’un certain temps.
    Il s’agit pour mes 2 cartes d’une mémoire Ellesmerre. Je n’ai pas essayé de lui appliquer le même BIOS que la première car je voulais d’abord tester ses performances de base mais dans mon cas je n’ai rien à perdre à le changer maintenant ^^.
    J’essayerai également de connecter uniquement cette carte au rig.

    Merci pour tes conseils 😉

    Pour info :

    ma RX580 actuel (qui fonctionne) est OC en :

    • core = 1120 MHz / 810 mV / DPM 1
    • memory = 2030 MHz

    Pour la nouvelle RX580 (qui ne fonctionne pas), j’ai essayé différents OC sur la plage :

    • core = de 1100 MHz à 1250 MHz / de 790 mV à 950 mV / DPM testés : 1, 2, 3, par défaut.
    • memory = de 1850 MHz à 2100 MHz
  • -

    @sygmacrypt a dit dans Impossible de faire fonctionner 1 GPU : WATCHDOG: GPU 2 hangs in OpenCL call, exit :

    J’ai essayé sans OC (sur une durée de 5 minutes) et elle a l’air de fonctionner mais je ne sais pas si elle ne reproduira pas l’erreur au bout d’un certain temps.

    Donc essaie sur une durée plus longue d’au moins 24h en priorité sans OC.

    @sygmacrypt a dit dans Impossible de faire fonctionner 1 GPU : WATCHDOG: GPU 2 hangs in OpenCL call, exit :

    Pour la nouvelle RX580 (qui ne fonctionne pas), j’ai essayé différents OC sur la plage :

    core = de 1100 MHz à 1250 MHz / de 790 mV à 950 mV / DPM testés : 1, 2, 3, par défaut.
    memory = de 1850 MHz à 2100 MHz

    Quand tu fais tes réglages change qu’une seule valeur à la fois surtout. Descendre en dessous de 830/840mv c’est trop. Par contre que ça ne fonctionne pas au dessus des 900mv, ça va dépendre des deux autres paramètres.

    Pour infos mes réglages (Pour cryptonight) avec un BIOS moddé, réfère toi au type de mémoire encadré en rouge quand tu passeras à la modification du BIOS.

    0_1539242637100_dd927491-cba8-49e4-84a6-6daea712e5c6-image.png

  • -

    Merci pour les conseils 😉
    Je testerai probablement ça demain soir.

    Constatation hors sujet :

    La liste des GPU n’a jamais marché correctement pour moi. Ma RX560 n’est pas détectée mais fonctionne parfaitement lors du minage (surement la carte dont j’ai eu le moins de problème) :

    0_1539275928288_3GPU.png
    Cela avait comme impact que je ne pouvais pas appliquer les bons profils d’OC quand elle était GPU0 car l’interface Web considérait la RX580 (anciennement GPU1) comme GPU0. J’ai contourné ce problème en utilisant la RX560 comme dernière GPU.
    Depuis que j’ai connecté la 4ème carte (puis déconnecté pour l’instant, sujet de ce topic), HiveOS a été “trompé” et considère cette carte comme GPU2 :
    0_1539276161963_4GPU.png
    HiveOS confond la RX560 avec la RX580 qui a été déconnectée mais affiche les bonnes caractéristiques (puissance, température,…)

    Et comme tu peux le voir, je n’ai pas le type de mémoire sous le nom de la carte.
    En inversant certains ports PCIe, le bon affichage (comme toi) est apparu puis est redevenu comme ci-dessus une fois que j’avais rechangé l’ordre des GPU. (HiveOS reconnait les cartes selon leur port PCIe ? WTF XD)

    Cet affichage n’est pas gênant et n’influence en aucun cas le minage mais je ne comprends pas pourquoi HiveOS réagit de cette manière. Une config ? Le driver ?

    Raniva 1 Reply
  • -

    @sygmacrypt Normalement l’ordre des cartes correspond simplement à la prise PCI express du PC, tu as juste à changer le riser de port pci pour changer son chiffre, un souci de riser peu etre pour le coup

    S 1 Reply
  • -

    @raniva Je sais que cet ordre correspond aux prises PCIe, j’ai réussi à identifier quel port correspond à quel numéro mais ce que je n’ai pas compris c’est pourquoi quand une des cartes était sur un des ports, j’avais le bon affichage pour TOUTES les cartes et que le fait de la changer de port (avec le même riser), mes cartes sont identifiés comme ci-dessus.
    Mais ce n’est pas grave, comme j’ai dit cela n’a pas d’impact sur le minage. Juste une incompréhension de l’identification.

    Raniva 1 Reply
  • -

    @sygmacrypt justement , ca peut poser souci si l’identification des cartes merde, ca ne devrait pas, pas d’impact sur le minage oui, sur le montage de l’ensemble ca peut.

  • -

    Eureka !

    Après les différents tests et recherches, j’ai découvert que le problème provenait du nouveau riser. En connectant la GPU à la carte mère directement, je n’avais pas de problèmes. En essayant ce riser avec une autre GPU, j’ai également rencontré le problème.
    Je suis actuellement entrain de miner avec les 2 RX580 sans problème.

  • -

    La nouvelle carte semble fonctionner correctement, un nouveau riser est en route.

    Cependant, un autre problème est apparu …
    Les fans de la RX570 ne fonctionnent plus correctement.
    Jusqu’à maintenant, tous les ventilateurs des GPU tournaient en moyenne de 30% en permanence pour une température aux alentours de 50°C.

    Mais depuis que j’ai fait fonctionner la RX580, les ventilateurs de la RX570 ne tournent plus en permanence !
    Ils ne tournent pas du tout, la GPU chauffe jusqu’à atteindre 75 °C et les fans démarrent. Cela se produit à plusieurs reprises jusqu’à ce que la GPU atteigne (au bout de la 3eme ou 4eme fois) 80°C et Claymore stoppe la carte !
    0_1539427340214_fan.png
    Claymore indique 25% alors qu’en réalité ils ne tournent pas du tout. La GPU s’arrete et ne rédemarre plus. Je dois restart le miner ou le rig.

    J’ai défini les paramètres de ventilateurs dans le profil d’OC sur HiveOS ainsi que dans la conf de Claymore mais rien ne change !

    Pourquoi les fans se mettent tout à coup à ne plus fonctionner correctement ?

  • -

    Au début, la GPU prend bien les paramètres définis dans Claymore et dans l’OC (40%)
    0_1539428601307_debut mining.png
    Mais quelques minutes plus tard, les fans s’arretent. Ils redémarrent 3 fois quand les 75°C sont atteints puis s’arrêtent définitivement et la GPU s’arrêtera à son tour définitivement quans 82°C sont atteints.

    Le_ChouX 1 Reply
  • -

    @sygmacrypt Peut-être en encore un problème de Riser…

    Tu es en autofan? Tu as essayé une valeur fix pour tes ventilo?

    S 1 Reply
  • -

    @le_choux Je n’ai jamais rencontré ce problème auparavant. J’ai inversé le riser avec une RX580 et elle fonctionne correctement, le problème ne vient pas du riser.

    Je suis et j’ai toujours été en autofan sur HiveOS. J’ai appliqué une valeur fixe (40%) dans le profil d’OC et dans Claymore. Cela fonctionne pour les RX580, et quelques minutes pour la RX570 avant que les ventilos s’arrêtent …

    Raniva 1 Reply
  • -

    @sygmacrypt Dans tes valeurs tu n’es pas a 40% si on regarde tes screens, elle sont a 23%,32 et 40%
    tu dois avoir un renseignement de fan qui n’est pas bon, tu met quoi dans hiveos ?

    S 1 Reply
  • -

    J’ai désactivé l’autofan. Les valeurs définies dans le profil d’OC n’ont aucun impact.
    Par contre, la défnition du paramètre -fanmin dans la conf Claymore a une influence ! En ayant défini 30 pour la RX570, j’avais le même problème mais qu’avec un seul fan ! Un seul fan tournait seulement jusqu’à atteindre 75°C et le second a démarré puis s’est éteint quand la température est redescendu à 62°C.
    En définissant le paramètre -fanmin à 40, les 2 fans tournent constamment (40% selon le relevé de Claymore) et garde une température constante de 50-51°C (données de Claymore)

    Raniva 1 Reply
  • -

    @sygmacrypt fanmin c’est la valeur minimale de la ventil au démarrage

  • -

    @raniva Je ne veux pas définir 40% pour les 2 RX580 (GPU0 et GPU1) qui fonctionnent correctement en auto et qui ne dépassent jamais 45°C.

    Raniva 1 Reply
  • -

    @sygmacrypt pourtant si tu definie fanmin a 40 , c’est ce que tu leur dis

    S 1 Reply
  • -

    @raniva J’ai défini uniquement pour la RX570 (GPU2) :

    0_1539433884325_fanclaymore.png

    Mon profil d’OC (qui n’a eu aucun impact) :
    0_1539433918075_fanoc.png

    Je souhaiterais justement rester en auto pour les 2 RX580 et définir 40% sur la RX570 (l’auto étant non fonctionnel) mais que ce soit dans Claymore ou HiveOS, soi on définir une seule valeur pour toutes les GPU, soi on en définit une pour chacune.

    Est-il possible de modifier la valeur d’une seule carte uniquement ? Par exemple, auto, auto, 40 pour n’appliquer ce paramètre qu’à GPU2 ?

    Raniva 1 Reply
  • -

    @sygmacrypt je ne pense pas que tu puisse mixer les deux,
    Pourquoi ne pas fixer les parametres toi meme , tu te prend la tete pour rien.Perso je met -tt 1 dans mes parametres claymore (donc laisse la gestion par hiveos de la ventil) et je met la valeur des ventil en % dans claymore OC , jamais eu de souci.
    Si t’as piece est bien ventilé ou que la temperature est relavitement constante pas de souci de monté en temperature.

    S 1 Reply
Log in to reply