AkitaOnRails on Nostr: Finalmente voltei a reconfigurar um setup de gerador de imagens estilo Dall-e ou ...
Finalmente voltei a reconfigurar um setup de gerador de imagens estilo Dall-e ou Midjourney, mas que roda localmente no meu PC. Tenho uma RTX 4090 pra isso mas roda com outras GPUs também, o lance é sempre ter o máximo de VRAM quanto possível.
Mas é um saco bagunçar a máquina com um tanto de venv de python e tudo mais. O ideal é usar Docker. Começa instalando o NVIDIA Toolkit pra Docker igual este tutorial:
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.htmlCom isso Docker tem acesso a GPU agora. Daí é só configurar um docker compose e eu achei esta imagem pra subir:
https://github.com/mmartial/ComfyUI-Nvidia-Docker?tab=readme-ov-fileSó ler o README e seguir o que ele fala. Ele vai subir a interface web ComfyUI, que é a melhor hoje em dia e tem um estilo de Nodes e Workflow pra programar a geração de imagens. Pra quem é de Da Vinci Resolve ou Blender, é parecido.
Finalmente, mesmo os modelos abertos de Stable Diffusion sendo muito bons, eles ainda tem aqueles problemas de imagens de I.A. de mais de 5 dedos nas mãos, aparecendo uma terceira perna do nada, e não conseguindo escrever nenhuma palavra direito.
Mas aí tem o pulo do gato. Saiu um novo modelo aberto mais avançado, o FLUX. Depois de ter o ComfyUI funcionando, é só continuar seguindo este outro tutorial pra saber de onde baixar e onde instalar Flux:
https://comfyanonymous.github.io/ComfyUI_examples/flux/E é isso aí! Com isso posso gerar imagens que um Dall-e/ChatGPT se recusa a gerar, e com a vantagem de ter menos halucinações e até com textos. Veja a imagem de exemplo abaixo como o texto aparece nítido e legível.
Published at
2024-09-18 14:20:41Event JSON
{
"id": "13664f0f58787a11c5d7cf89bbda3d1012c628fa4dd452df01cfb6b39ee75fe6",
"pubkey": "82550cfaa6f893e4fb1fdc5a851e61e99176934147041871717a641773a619b1",
"created_at": 1726669241,
"kind": 1,
"tags": [],
"content": "Finalmente voltei a reconfigurar um setup de gerador de imagens estilo Dall-e ou Midjourney, mas que roda localmente no meu PC. Tenho uma RTX 4090 pra isso mas roda com outras GPUs também, o lance é sempre ter o máximo de VRAM quanto possível.\n\nMas é um saco bagunçar a máquina com um tanto de venv de python e tudo mais. O ideal é usar Docker. Começa instalando o NVIDIA Toolkit pra Docker igual este tutorial:\n\nhttps://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html\n\nCom isso Docker tem acesso a GPU agora. Daí é só configurar um docker compose e eu achei esta imagem pra subir: \n\nhttps://github.com/mmartial/ComfyUI-Nvidia-Docker?tab=readme-ov-file\n\nSó ler o README e seguir o que ele fala. Ele vai subir a interface web ComfyUI, que é a melhor hoje em dia e tem um estilo de Nodes e Workflow pra programar a geração de imagens. Pra quem é de Da Vinci Resolve ou Blender, é parecido.\n\nFinalmente, mesmo os modelos abertos de Stable Diffusion sendo muito bons, eles ainda tem aqueles problemas de imagens de I.A. de mais de 5 dedos nas mãos, aparecendo uma terceira perna do nada, e não conseguindo escrever nenhuma palavra direito.\n\nMas aí tem o pulo do gato. Saiu um novo modelo aberto mais avançado, o FLUX. Depois de ter o ComfyUI funcionando, é só continuar seguindo este outro tutorial pra saber de onde baixar e onde instalar Flux:\n\nhttps://comfyanonymous.github.io/ComfyUI_examples/flux/\n\nE é isso aí! Com isso posso gerar imagens que um Dall-e/ChatGPT se recusa a gerar, e com a vantagem de ter menos halucinações e até com textos. Veja a imagem de exemplo abaixo como o texto aparece nítido e legível.https://m.primal.net/Ktrh.png ",
"sig": "e7c5445c1cc4550d908e6f98c03c6a7a0f058b905085b92cd6bc25ef0b7f7ff53531aec654454163b8f82ebab1c935df2243c1320e747381e0821fa87de491a0"
}