modelli/Tponynai3 - v51weight ottimizzato

Tponynai3 - v51weight ottimizzato

Luca Bianchi

5/23/2025

1:31:53 AM

| Discussion

Parole Chiave e Tag Correlati

61cc7615e2,89e7c7518c,ac17f32d24,anime,modello base,checkpoint,nai,nai3,pony,tonade,tponynai3

Ragazza anime a scuola con capelli corti neri, uniforme marinaretta con fiocco rosso, in piedi in una classe con un braccio sollevato. Generata con AI Stable Diffusion.

Immagine generata da AI di una ragazza anime con capelli scuri corti, che indossa un'uniforme scolastica a marinaretto, che danza con entusiasmo su un palco con tende rosse usando Stable Diffusion.

Un'immagine generata da AI usando Stable Diffusion di una ragazza anime in uniforme scolastica che fa il segno della pace.

Immagine generata da AI di una ragazza anime in un costume magico rosa usando Stable Diffusion.

Un guerriero coniglio robotico con una spada in una scena post-apocalittica. Immagine generata da AI utilizzando Stable Diffusion.

Immagine in stile anime di una ragazza carina con capelli bianchi e ali d'angelo seduta al bancone di un bar. Indossa un vestito bianco e ha un alone luminoso sopra la testa. Immagine generata da AI usando stable diffusion.

Una prospettiva dinamica di una ragazza anime con capelli neri e verdi, che indossa un vestito turchese e tiene un paio di occhiali da sole. Questa è un'immagine generata da AI usando stable diffusion.

Una strega anime a tema oscuro in piedi su un cerchio magico luminoso con energia mistica che si irradia dalle sue mani. Generato usando stable diffusion.

Immagine generata da AI di una strega in stile anime con cappello blu e capelli castani che legge un libro magico in una stanza illuminata da candele, creata usando Stable Diffusion.

Strega anime con cappello e vestito nero, che corre gioiosamente in una stanza magica illuminata da candele. Immagine generata da AI usando Stable Diffusion.

Design del personaggio anime generato da AI con capelli corti argento, occhi dorati, accenti gialli e un outfit dettagliato.

Una ragazza anime alla moda con capelli biondi in posa con segno della pace, generata da AI utilizzando Stable Diffusion.

Prompt Consigliati

score_9,score_8_up,score_7_up

score_8_up,score_7_up,1girl

Prompt Negativi Consigliati

score_4,score_3,score_2,worst quality, bad hands, bad feet

score_3,score_2,ugly

Parametri Consigliati

samplers

Euler a

steps

cfg

clip skip

resolution

776x1072, 848x1072, 864x1192, 616x936, 696x1272, 712x1064

other models

T-ponynai3-v5.1 (ac17f32d24), T-ponynai3-v4.1 (0b3046dd73), T-ponynai3-v5 (61cc7615e2), tpony-style-v2 (e9eed2af18)

Parametri Consigliati per Alta Risoluzione

upscaler

R-ESRGAN 4x+ Anime6B

upscale

1.5 - 2

steps

denoising strength

0.3

Suggerimenti

Utilizzare high-fix a risoluzione moderata per i migliori risultati.

Provare style_3 o 4 per migliorare i dettagli degli occhi.

Punti Salienti della Versione

Ecco un riassunto delle problematiche di v5.

1. Compatibilità Lora, problemi con arti e occhi sfocati. La compatibilità Lora soffre perché per questo training ho usato un peso finale troppo alto, causando overfitting in certi casi. Questa versione ottimizzata riduce i pesi, migliorando la stabilità degli arti e la compatibilità. Ho preparato alcune immagini comparative usando Lora addestrati su v4.1. Il problema degli occhi sfocati è provocato da style_1: il materiale originale ha occhi sfocati; si può migliorare con style_3 o 4.

2. Problemi di esposizione con luce volumetrica. Non ho riscontrato questo problema nei test, ma potrebbe essere causato dal parametro noise offset usato nell’addestramento, che rende il modello più sensibile ai prompt sulla luce, portando a risultati più luminosi con pesi identici. Consiglio di non usare parentesi o numeri per aumentare il peso; data la sensibilità di sdxl ai prompt, si può ripetere più volte lo stesso prompt per evitare effetti estremi. Questo parametro è stato usato per correggere la tinta gialla prodotta con pochi prompt, e ho fornito immagini comparative.

3. Complessità ridotta del modello. Teoricamente e praticamente, v5 è più pulito e diversificato dei precedenti, e con certi prompt può esprimersi più precisamente. Ho fatto confronti visivi. Il set di training non include materiale eccessivamente complesso perché credo che questo porti a overfitting con perdita di dettagli.

Obiettivo: ottenere un modello significativamente diverso dalle versioni precedenti, non una copia quasi identica. I vostri feedback sono preziosi per il test e l’errore; da solo non potrei sostenerne i costi. Nella prossima versione aumenterò la quantità di materiali per cada stile per fonderli bene e poterli separare, usando prompt specifici per cambiare stile, probabilmente con nuove tecniche di training. Grazie per il vostro feedback!

Riassunto dei problemi di v5.

1, compatibilità Lora e problemi con arti e occhi sfocati. Ho usato un peso eccessivo nel training, causando overfitting in certi casi. Questa versione ottimizzata riduce il peso, migliorando gli arti e la compatibilità con certi Lora. Ho preparato grafici comparativi di Lora addestrati su v4.1 come riferimento. La sfocatura degli occhi è dovuta a style_1 che ho allenato, poiché il materiale originale aveva occhi sfocati; si può migliorare con style_3 o 4.

2. Problemi di esposizione con luce volumetrica. Non ho avuto questo problema nei test, ma probabilmente è dovuto all’uso del parametro noise offset, che aumenta la sensibilità del modello a prompt di luce, provocando risultati più luminosi con stessi pesi. Suggerisco di non usare parentesi o numeri per aumentare il peso. Data la sensibilità di sdxl, si può provare a ripetere più volte lo stesso prompt per evitare risultati estremi. Questo parametro serve a correggere l’ingiallimento con pochi prompt. Ho fornito confronti a riguardo.

3. Complessità del modello ridotta. V5 dovrebbe essere un modello più pulito e diversificato rispetto ai precedenti. Con certi prompt si riesce ad ottenere performance più accurate. Ho fatto confronti visivi. Il training non usa materiale troppo complesso perché porterebbe a overfitting con perdita di dettagli.

Obiettivo: voglio un modello molto diverso da quelli precedenti, non una copia. I vostri feedback sono fondamentali per test e errore. Nella prossima versione aumenterò la quantità di materiali per i vari stili, per fondere o separare efficacemente gli stili. Usare prompt specifici per cambiare stile potrebbe richiedere tecniche di training nuove. Grazie per il feedback!

Sponsor del Creatore

[Non certificato] Tonade è l'autore del modello T-ponynai3, ID su c-station: Tonade, | 爱发电 (afdian.net )

Qui è il canale di supporto su 爱发电, se trovate il modello utile e avete possibilità, potete sostenere! Ma senza costrizioni, grazie per ogni vostro supporto, continuerò a esplorare come migliorare il modello!

929721518 il numero del mio piccolo gruppo QQ, per qualsiasi domanda su tpony potete entrare qui per chiedere. Ricordate di indicare c-station.

Il modello ha già integrato il vae, non è necessario aggiungere vae extra

Il modello ha già integrato il vae, non c'è bisogno di aggiungerne altri

La migliore strategia di generazione è usare una risoluzione moderata con alta riparazione, non usare direttamente alta risoluzione

La migliore strategia di generazione è usare high-fix a risoluzione moderata, invece di un output diretto in alta risoluzione

[Non certificato] Tonade è l'autore del modello T-ponynai3, ID su c-station: Tonade, | 爱发电 (afdian.net )

Qui è il canale di supporto su 爱发电, se trovate il modello utile e avete possibilità, potete sostenere! Ma senza costrizioni, grazie per ogni vostro supporto, continuerò a esplorare come migliorare il modello!

(33) T-ponynai3-v5 - (versione peso modificata) | Stable Diffusion Checkpoint | 吐司 tusi.cn (tusiart.com) tusiart(versione cinese tensor) link generazione online

(Poiché il modello può esistere solo simultaneamente su Tusi e Tensor, è meglio usarlo su Tusi. Se ci sono problemi d'uso, segnalatemeli)

La versione v5 ha aggiunto 4 nuovi stili, si può affinare il dettaglio dell'immagine usando style_1 fino a style_4 (in teoria, ma l'effetto reale è più misterioso)

La versione V5 ha aggiunto 4 nuovi stili, utilizzabili per affinare i dettagli dell'immagine tramite style_1 a style_4 (teoricamente è così, ma l'effetto effettivo è piuttosto mistico o inferiore)

Questo modello supporta perfettamente i modelli basati su ponyv6, e i Lora di ani3 e sdxl1.0 sono in parte compatibili

Questo modello supporta perfettamente Lora addestrati con ponyv6 come base, e i Lora di ani3 e sdxl1.0 possono essere adattati a un certo livello.

Test di inpainting basato su v4.1 (parte ignorata nelle versioni precedenti)

Image inpaint testing based on v4.1 (this is a previously overlooked part)

pony è divino, compatibilità massima. Questo modello supporta ani, lora di pony

Effetti obbligatori simili a ponydiffusion

positivo:(score_9,score_8_up,score_7_up,score_6_up,score_5_up,score_4_up)

O (score_9,score_8_up,score_7_up)

Negativi opzionali:

negativo: (score_4,score_3,score_2,score_1),

Si possono anche aggiungere i negativi standard di NAI, per esempio:

negativo: worst quality, bad hands, bad feet

Spero che vi piaccia ᕕ(◠ڼ◠)ᕗ basato su nai3 e ponyv6

Istruzioni di training: v1 utilizzava 94 immagini, v2 119, v3 348, v3.5 474, immagini generate da nai3, il lora addestrato è fuso con il modello base per micro-regolazioni, tutti i tag artistici supportati da ponyv6 sono compatibili, usare più di due tag può causare crash dello sfondo, al momento è possibile generare personaggi di Genshin Impact, altri non testati. Il modello base è una fusione di T-anime-xl, ponyv6 e ani3, non ancora pubblicato.

La scheda video usata per il training è la mia 3090, con 7 ore per v1, 12 per v2, 35 per v3 e 47 per v3.5

Istruzioni di training: Merge Lora ha usato 94 immagini per v1, 119 per v2, 348 per v3, 474 per v3.5, generate da NAI3 per addestrare il modello base con micro-regolazioni; Pony supporta tutti i tag artistici di ponyv6, nessun tag aggiuntivo da nai3. Usare più di due tag può causare crash dello sfondo. Attualmente sono stati trovati personaggi generabili di Genshin Impact. Non ho testato molto questo modello. Ammirate la riproduzione dello stile artistico di NAI3. Il modello base è una fusione tra T-anime-xl, ponyv6 e ani3, non rilasciato.

La scheda video per l'addestramento è la mia 3090, usata per 7, 12, 35 e 47 ore rispettivamente da v1 a v3.5.

v1

Un tentativo interessante

v2

Basato su v1 con un piccolo aumento del set di addestramento e circa 30 ore di tentativi, lo stile risultante ha ancora qualche overfitting, come doppio ombelico e capelli disordinati

Basato su v1, il set di training è stato leggermente aumentato e sono passate circa 30 ore di tentativi, ma lo stile allenato mostra ancora un po’ di overfitting, per esempio doppio ombelico e capelli disordinati

v3

Gli arti di v3 sono migliori rispetto a v2; per footfocus, v3 genera piedi con impatto visivo maggiore e prospettive più difficili. L’aspetto “AI” nei capelli di v3 è più debole rispetto a v2, dovuto al piccolo set di training di v2 che causava overfitting nei capelli. L’overfitting del doppio ombelico di v2 è sparito. Complessivamente la dimensione del set di training triplicata e un parametro dim maggiore fanno sì che lo stile risulti più naturale, con maggiore espressività in prompt lunghi.

Gli arti di v3 sono migliori rispetto a quelli di v2; in termini di footfocus, v3 può generare piedi con maggiore impatto visivo e prospettive più complicate. L’aspetto AI dei capelli di v3 è più debole rispetto a v2, perché il set di training v2 era piccolo causando un po’ di overfitting nei capelli; anche il doppio ombelico occasionale in v2 è sparito. Nel complesso, la triplicazione del set di training e un parametro dimensional maggiore rendono lo stile più naturale e più espressivo per prompt lunghi.

v3.5

In questa versione i requisiti per i quality word sono meno rigorosi, si può non usare affatto i quality word della valutazione estetica di pony per generare immagini. Durante i test è capitato occasionalmente che l’immagine generata avesse blocchi di colore senza senso; basta sostituire i quality word della valutazione estetica con quelli comuni di 1.5, per esempio sostituire score_1, score_2 con worst quality. Ho aggiunto circa 150 immagini al set di training per bilanciare e arricchire lo stile e ridotto la pendenza iniziale della curva di apprendimento, rendendo il modello meno overfitting e adattabile a più lora e prompt fantasiosi. Questa versione è più libera di v3 e rafforza molto la resa dei personaggi maschili; in alcuni prompt i colori e lo stile sono meno vividi e untuosi.

In questa versione i requisiti per i quality word sono meno rigorosi, si può non usare affatto i quality word della valutazione estetica di pony per generare immagini. Durante i test occasionalmente compaiono blocchi di colore senza senso. Basta sostituire i quality word con quelli comuni di 1.5, es. sostituisci score_1, score_2 con worst quality. Ho aggiunto circa 150 immagini di training per bilanciare e arricchire lo stile, ed ho ridotto la pendenza iniziale della curva di apprendimento, rendendo il modello meno overfitting e adatto a più lora e prompt creativi. Complessivamente questa versione è più libera di v3 e la resa dei personaggi maschili è molto migliore; in alcuni prompt i colori e lo stile sono meno sgargianti e untuosi.

v4

Questa versione ha usato 798 immagini per il training e 90 ore di addestramento su 3090. Rispetto a v3.5 in alcuni prompt la composizione e la resa di alcune parti sono più corrette, per esempio effetti di ghosting delle dita e sovrapposizioni di parti del corpo. La lunghezza media e corta dei prompt è stata preferita per il training, perché nessuno vuole scrivere prompt lunghissimi per buoni risultati. Rimuovendo i quality prompt della valutazione estetica di pony, la qualità dell’immagine migliora parecchio rispetto a v3.5, tendendo a risultati più piatti e meno tridimensionali, più vicini allo stile anime classico. Il test sulla quantità di immagini per il fine tuning di ponyv6 è quasi concluso; il prossimo passo è lavorare sui label di training dei prompt per aggiungere prompt più controllabili (es. inserire la valutazione estetica, dato che ora il training copre i quality word di pony) e continuare ad aggiungere nuovo materiale di training adeguato, come scenari e più materiale per i piedi (sembra poco per v4).

Questa versione ha utilizzato 798 immagini come materiale di training e 90 ore di addestramento con una scheda 3090. Rispetto a v3.5, questa versione ha una composizione più precisa e una resa migliore di alcune parti del corpo in certi prompt, come il ghosting delle dita e la sovrapposizione di alcune parti. Nei prompt ho privilegiato lunghezze medie e brevi, poiché pochi amano scrivere prompt lunghi per ottenere buoni risultati. Rimuovendo i quality prompt di Pony l’immagine ha una qualità migliorata rispetto a v3.5, tendendo a una qualità più piatta e meno tridimensionale, più vicina allo stile anime classico. I test sull’effetto del fine-tuning di Ponyv6 in base al numero di immagini sono quasi conclusi. Il passo successivo è partire dai label di training dei prompt per provare ad aggiungere prompt più regolabili nel limitato numero di materiale disponibile di Pony (es. aggiungere la valutazione estetica, dato che l’attuale training copre i quality word di Pony), e continuare ad aggiungere materiale di training adatto, come scenari e più materiale per i piedi (che sembra scarso in v4).

v4.1

Mi scuso con gli utenti per un’altra nuova versione in così poco tempo, mette a dura prova la memoria del computer e la velocità di rete. O_O

Prima di tutto mi scuso con gli utenti per aver rilasciato una nuova versione in così poco tempo, che mette molto sotto sforzo la memoria del PC e la velocità di rete. O_O

Questa nuova versione è basata sulla versione di debug degli arti di v4. A causa della difficile gestione dell’effetto degli arti in v4 e del fatto che il tasso di perfezione delle mani non ha soddisfatto le mie aspettative nei test recenti, io e il mio amico 木猫猫猫 abbiamo apportato alcune regolazioni e miglioramenti a v4, e alla fine abbiamo raggiunto i risultati attesi con gli arti di v4.1. Pubblicherò dei grafici xy per mostrare chiaramente il miglioramento di v4.1 rispetto a v4 con gli stessi parametri.

Questa nuova versione si basa sulla versione di debug degli arti di v4. Poiché il controllo degli arti in v4 era difficile, la perfezione delle mani non ha raggiunto i miei obiettivi nei test recenti. Quindi io e il mio amico 木猫猫猫 abbiamo fatto delle regolazioni e miglioramenti, alla fine gli arti di v4.1 hanno raggiunto le mie aspettative. Pubblicherò dei grafici per mostrare chiaramente il miglioramento di v4.1 rispetto a v4 con gli stessi parametri.

v5

In questa versione il materiale di training è stato ridotto, a seguito del fallimento di v4. Ho avviato un altro progetto per testare la mia idea da un punto di vista di basso consumo di memoria, cioè allenare quattro diversi stili di Lora adattati a T-ponynai3. Il modello originale è stato caricato anche su Civitai. Dopo i test di compatibilità, ho iniziato a inserire questi quattro diversi stili come additivi in T-ponynai3-v5. Sorprendentemente, la qualità delle linee è migliorata molto, probabilmente perché ho usato materiale molto fine. Per etichettare questi quattro stili ho usato style_1 fino a style_4, ma sfortunatamente, per qualche motivo, questi stili non si sono separati né hanno avuto forte effetto, anzi si sono ben fusi nello stile originale. Sebbene non sia stato raggiunto l'obiettivo di supportare più stili, è stato ben elevato il livello di qualità dello stile originale nai3. Forse nella prossima versione si potrà provare ad andare oltre. (Mi piace molto giocare e non poterlo fare durante il training è difficile per me)

Materiale ridotto per v5, dopo il fallimento di v4. Ho lanciato un progetto per sperimentare l’idea di basso uso memoria, allenando quattro stili di Lora diversi adattati a T-ponynai3, e ho caricato il modello originale su Civitai. Dopo il test di compatibilità, ho iniziato ad aggiungere questi stili come additivi in T-ponynai3-v5. Sorprendentemente, la qualità delle linee di v5 è molto migliorata, probabilmente per l’uso di materiale molto fine. Nel marking degli stili ho usato style_1 a style_4, ma questi quattro stili non si sono distinti o hanno avuto poco effetto, bensì si sono ben integrati nello stile originale. Anche se non si è raggiunto l’obiettivo di supportare stili multipli, è stato elevato il livello della qualità dello stile originale Nai3. Forse nella prossima versione si potrà migliorare ulteriormente. (Mi piace giocare e non poterlo fare durante l’allenamento è molto difficile per me.)

Ecco un riassunto delle problematiche di v5.

Riassunto dei problemi di v5.

Contributore

Luca Bianchi

Ciao! Sono Luca Bianchi, editor visivo con un debole per l’estetica minimal. Seleziono e rifinisco immagini AI per trasformarle in piccole opere d’arte.

Tponynai3 - v55

Tponynai3 - v5

Usa questo modello