• [^] # Re: Complement d’information

    Posté par . En réponse au journal Auto-héberger ses IA. Évalué à 3 (+1/-0).

    Ma question est sur le confort d’utilisation. Le Mac mini n’a que 120gb de bande passante, mais le modèle tourne a une vitesse acceptable. Je me demande si vous avez une idée sur l’utilisation d’une APU comme Halo Strix avec environ 200gb de bande passante et l’avantage d’avoir 128gb de ram à un prix abordable? Moins rapide, plus cher à upgrader, mais plus simple, plus confortable et pas un gros four :)

    J'ai pris un AMD Ryzen AI 9 HX 370 avec 64GB de ram justement pour ça (il a la même bande passante de que les Strix Halo il me semble) et franchement je suis assez déçu.

    Avec 64Gb tu peux charger des modèles potentiellement plus gros, mais il vont tourner trop lentement...

    J'ai fait des tests avec Qwen 3.6 27b dense et Gemma 4 31b dense et même avec le mtp (truc qui vient tout juste d'être mis en place chez llamma.cpp, quand je dis tout juste c'est hier) qui boost les perfs entre 1,4X et 2,5X, bah je suis genre à 6 tokens/s avec un contexte vierge, donc ça doit vite retomber à du 4 t/s, voir moins avec un contexte important. J'aimerai me tromper, mais j'ai fait pas mal d'essais, tester plusieurs config (Vulkan ou HIP), je me suis cassé les dents avec les problèmes de drivers ROCm, les noyaux linux, la config grub, bios etc. J'ai vraiment passé du temps pour m'assurer que tout était bon, car l'expérience actuelle n'est pas du tout "out of the box" sur une machine AMD Ryzen sous Linux.

    Sur du Strix Halo t'es sans doute un peu plus rapide car le processeur est plus puissant, donc t'arrives peut-être à du 10 tokens/s, 15 grand max je dirai. Mais ça reste assez limite je trouve.

    Les nouveaux modèles comme DeepSeek v4-flash qui sont un mélange d'expert de 13b sont peut-être l'avenir pour ce genre de config. Par contre, ils sont encore trop gros (154B pour v4-flash), mais ils ont plein d'optimisation sur la taille du contexte et tout, donc avec un Strix Halo et 128Gb de RAM, j'imagine que ça commence à être utilisable, pas lu de retours détaillés la dessus.
    En tout cas, c'est une piste, mais ça fait quand même des machines à minimum 3000€ aujourd'hui et non upgradable (tous les modèles que je connais ont de la mémoire soudée, y a peut-être moyen d'acheter le processeur à part - jamais vu - et mettre des barettes en LPCAMM2 dessus).
    Si ça se confirme qu'un modèle comme deepseek v4-flash est utilisable sur ce genre de config avec un large contexte, alors ça rendrait l'usage d'un LLM local très probable pour faire du code. Soit en "vibe codant", soit en ayant une approche plus structurée qu'on appelle "agentic engineering", j'ai de très très bon retours de collègues sur ce genre d'approche. Bon par contre, ça change de manière drastique la façon de travailler... Les retours sont que c'est plus le même boulot et que le plaisir n'y est plus...