Hardware
| Component | Spec | Notes |
|---|---|---|
| CPU | AMD Ryzen AI MAX+ 395 | 16 cores, Zen 5, NPU intégré |
| RAM | 90 GB LPDDR5X unified | Partagée CPU + iGPU |
| GPU | Radeon 8060S (iGPU) | Vulkan, ~40 GB VRAM partagée |
| Storage | 1.8 TB NVMe | Models + data |
| OS | Ubuntu 24.04 LTS | Linux 6.17 x86_64 |
| Node | v24.14.0 | Runtime OpenClaw |
LLM Inference Stack
Pas d'Ollama en prod. llama.cpp direct avec backend Vulkan — 64–71 t/s en génération sur la Radeon 8060S, vs ~43 t/s via Ollama.
Port 8081 — Nemotron Cascade 2
/home/iamsupersocks/llama.cpp/build/bin/llama-server \
--model ~/.ollama/models/gguf/nemotron-cascade-2-30b-q5.gguf \
--ctx-size 16384 \
--n-gpu-layers 99 \ # all layers on Vulkan
--port 8081 \
--host 127.0.0.1 \
--threads 16 \
--reasoning-budget 600 # limits thinking for Telegram bots
Port 8083 — Qwen 3.5 9B
/home/iamsupersocks/llama.cpp/build/bin/llama-server \
--model /usr/share/ollama/.ollama/models/blobs/sha256-dba64d... \
--ctx-size 8192 \
--n-gpu-layers 99 \
--port 8083 \
--alias qwen3.5-9b \
--threads 8
Tip : Les blobs Ollama sont des GGUF standard. Tu peux les monter directement dans llama.cpp sans conversion. Repère le path avec
ollama show --modelfile <model>.Modèles disponibles
| Modèle | Taille | Format | Usage |
|---|---|---|---|
| Nemotron Cascade 2 30B | 26 GB | GGUF Q5 | Jarvis · Karen · x-analyzer |
| Qwen 3.5 9B | 5.3 GB | GGUF Q4_K_M | x-analyzer léger |
| Qwen 3.5 Opus Distill | 21 GB | GGUF Q4 | Available |
| DeepSeek R1 Qwen 32B | 19 GB | Ollama | Reasoning |
| Gemma 3 27B | 16 GB | Ollama | Available |
| Hermes 4 14B | 9 GB | Ollama | Fast assistant |
Agents & Services
Jarvis
Bot Telegram @Iamsupersockslab_bot. Agent généraliste avec terminal, outils web, mémoire.
Karen
Bot Telegram @karen_supersocks_bot. Agent alternatif, même stack, modèle configurable.
Clawd (Claude)
Agent principal via Telegram. Orchestrateur, accès machine, mémoire long-terme.
x-analyzer
Analyse les tweets d'un compte X. Flask + SQLite + LLM local. Thèmes, style, insights.
Cogefox
Algo paris sportifs. 1600+ comptes trackés, Supabase, odds auto toutes les 15 min.
AI Signal (veille)
Veille IA automatique. 100+ sources, génération HTML, GitHub Pages.
Lab Radars
Pages de tracking des employés des labs AI sur X — profils réels scrapés via clix0, déployées sur GitHub Pages.
| Lab | Profils | Liste X | URL |
|---|---|---|---|
| 🔥 Mistral AI | 72 | @llmgram/mistral-ai-people | mistral-radar/ |
| 🔬 Anthropic | 79 | @llmgram/anthropic-people | anthropic-radar/ |
| 🤖 OpenAI | 81 | @llmgram/openai-people | openai-radar/ |
Tooling
clix0
CLI non-officiel Twitter/X. Scraping de profils, tweets, gestion de listes — sans API payante. Authentification par cookies.
clix user --json <handle> # profil complet
clix tweets --json --count 200 <handle> # tweets récents
clix lists add-member <list_id> <handle> # ajout liste
rembg
Suppression de fond d'image. Qualité excellente en local, zéro cloud.
Gemini Image Gen
Génération d'images via gemini-2.5-flash-image REST API. Meilleur rapport qualité/coût trouvé à ce jour.
Lessons learned
llama.cpp > Ollama pour Vulkan. Ollama passe par une couche d'abstraction qui coûte ~30% de perf. Monte directement les GGUF sur llama-server.
OLLAMA_KEEP_ALIVE à 10 min. Par défaut Ollama garde les modèles en RAM indéfiniment. Configure un drop-in systemd pour décharger après inactivité.
reasoning-budget 600 sur les bots Telegram. Sans ça, le modèle pense pendant 5 min et le gateway timeout.
Scraper X : endpoint
x.com (pas twitter.com), Bearer token public, cookies auth_token + ct0 extraits du browser.