Kënschtlech Intelligenz

EasyPhoto: Äre perséinlechen AI Photo Generator

aktualiséiert on Oktober 30, 2023

EasyPhoto: Äre perséinlechen AI Portrait Generator

Stabil Diffusioun Web User Interface, oder SD-WebUI, ass e komplette Projet fir Stable Diffusion Modeller déi d'Gradio Bibliothéik benotzt fir e Browser Interface ze bidden. Haut wäerte mir iwwer EasyPhoto schwätzen, en innovativen WebUI Plugin deen Endbenotzer erlaabt AI Portraite a Biller ze generéieren. Den EasyPhoto WebUI Plugin erstellt AI Portraite mat verschiddene Templates, ënnerstëtzt verschidde Fotostiler a verschidde Ännerunge. Zousätzlech, fir d'Fäegkeeten vun EasyPhoto weider ze verbesseren, kënnen d'Benotzer Biller generéieren mam SDXL Modell fir méi zefriddestellend, präzis a divers Resultater. Loosst eis ufänken.

Eng Aféierung zu EasyPhoto a Stabil Diffusioun

De Stable Diffusion Framework ass e populäre a robuste Diffusiounsbaséierte Generatiounskader, deen vun Entwéckler benotzt gëtt fir realistesch Biller ze generéieren op Basis vun Input Textbeschreiwungen. Dank senge Fäegkeeten huet de Stable Diffusion Framework eng breet Palette vun Uwendungen, dorënner Bildauspainting, Bildinpainting, a Bild-zu-Bild Iwwersetzung. De Stable Diffusion Web UI, oder SD-WebUI, steet eraus als ee vun de populäersten a bekanntsten Uwendungen vun dësem Kader. Et huet e Browser-Interface gebaut op der Gradio-Bibliothéik, déi eng interaktiv a userfrëndlech Interface fir Stable Diffusion Modeller ubitt. Fir d'Kontroll an d'Benotzerfrëndlechkeet an der Bildgeneratioun weider ze verbesseren, integréiert SD-WebUI vill Stable Diffusion Uwendungen.

Wéinst der Komfort, déi vum SD-WebUI Kader ugebuede gëtt, hunn d'Entwéckler vum EasyPhoto Kader decidéiert et als Web Plugin ze kreéieren anstatt eng vollwäerteg Applikatioun. Am Géigesaz zu existente Methoden, déi dacks ënner Identitéitsverloscht leiden oder onrealistesch Features a Biller aféieren, benotzt de EasyPhoto Framework d'Bild-zu-Bild Fäegkeeten vun de Stable Diffusion Modeller fir genee a realistesch Biller ze produzéieren. D'Benotzer kënnen den EasyPhoto Kader einfach als Extensioun am WebUI installéieren, d'Benotzerfrëndlechkeet an d'Accessibilitéit fir eng méi breet Palette vu Benotzer verbesseren. Den EasyPhoto Kader erlaabt d'Benotzer Identitéit guidéiert, qualitativ héichwäerteg an realistesch AI Portraite déi enk der Input Identitéit gläichen.

Als éischt freet de EasyPhoto Kader d'Benotzer fir hiren digitale Doppelgänger ze kreéieren andeems se e puer Biller eropluede fir e Gesiicht LoRA oder Low-Rank Adaptatiounsmodell online ze trainéieren. De LoRA-Framework verfeinert séier d'Diffusiounsmodeller andeems Dir Low-Rank Adaptatiounstechnologie benotzt. Dëse Prozess erlaabt de baséiert Modell d'ID Informatioun vu spezifesche Benotzer ze verstoen. Déi trainéiert Modeller ginn dann fusionéiert & integréiert an de Baseline Stable Diffusion Modell fir Interferenz. Ausserdeem, wärend dem Interferenzprozess benotzt de Modell stabil Diffusiounsmodeller an engem Versuch d'Gesiichtsregiounen an der Interferenzschabloun nei ze molen, an d'Ähnlechkeet tëscht den Input an den Ausgangsbiller gi verifizéiert mat de verschiddene ControlNet Eenheeten.

Den EasyPhoto Kader setzt och en zwee-Etapp Diffusiounsprozess of fir potenziell Themen wéi Grenzartefakte & Identitéitsverloscht unzegoen, sou datt d'Bild generéiert visuell Inkonsistenz miniméiert wärend d'Identitéit vum Benotzer behalen. Ausserdeem ass d'Interferenzpipeline am EasyPhoto Kader net nëmme limitéiert fir Portraiten ze generéieren, awer et kann och benotzt ginn fir alles ze generéieren wat mat der ID vum Benotzer verbonnen ass. Dëst implizéiert, datt eemol Dir Trainéieren der LoRA Modell fir eng bestëmmte ID, kënnt Dir eng breet Palette vun AI Biller generéieren, an domat kann et verbreet Uwendungen dorënner virtuell probéieren-ons hunn.

Zu Resumé, der EasyPhoto Kader

Proposéiert eng nei Approche fir de LoRA Modell ze trainéieren andeems Dir verschidde LoRA Modeller integréiert fir d'Gesiichtsvertraulechkeet vun de generéierte Biller z'erhalen.
Benotzt verschidde Verstäerkungsmethoden fir d'LoRA Modeller fir Gesiichtsidentitéit Belounungen ze optimiséieren, déi weider hëlleft fir d'Ähnlechkeet vun den Identitéiten tëscht den Trainingsbilder an de generéierte Resultater ze verbesseren.
Proposéiert en Dual-Stage inpaint-baséiert Diffusiounsprozess dee zielt fir AI Fotoen mat héijer Ästhetik an Ähnlechkeet ze generéieren.

EasyPhoto: Architektur & Training

Déi folgend Figur weist den Trainingsprozess vum EasyPhoto AI Kader.

Wéi et ka gesi ginn, freet de Kader fir d'éischt d'Benotzer fir d'Trainingsbilder z'inputéieren, an dann d'Gesiichtserkennung auszeféieren fir d'Gesiichtsplazen z'entdecken. Wann de Kader d'Gesiicht erkennt, crops et d'Inputbild mat engem virdefinéierte spezifesche Verhältnis deen nëmmen op d'Gesiichtsregioun fokusséiert. De Kader setzt dann eng Hautbeautifikatioun & e Saliency Detektiounsmodell aus fir e proppert & kloer Gesiichtstrainingbild ze kréien. Dës zwee Modeller spillen eng entscheedend Roll fir d'visuell Qualitéit vum Gesiicht ze verbesseren, a suergen och datt d'Hannergrondinformatioun geläscht gouf, an d'Trainingsbild haaptsächlech d'Gesiicht enthält. Schlussendlech benotzt de Kader dës veraarbechte Biller an Input-Prompts fir de LoRA-Modell ze trainéieren, an domat equipéiert mat der Fäegkeet fir Benotzerspezifesch Gesiichtseigenschaften méi effektiv a präzis ze verstoen.

Ausserdeem, während der Trainingsphase enthält de Kader e kriteschen Validatiounsschrëtt, an deem de Kader de Gesiicht ID Spalt tëscht dem Benotzerinputbild an dem Verifizéierungsbild berechent, dat vum trainéierte LoRA Modell generéiert gouf. De Validatiounsschrëtt ass e fundamentale Prozess deen eng Schlësselroll spillt fir d'Fusioun vun de LoRA Modeller z'erreechen, schlussendlech garantéiert datt de trainéiert LoRA Kader verwandelt sech an en Doppelgänger, oder eng korrekt digital Duerstellung vum Benotzer. Zousätzlech gëtt d'Verifizéierungsbild dat den optimalen face_id Score huet als Face_id Bild ausgewielt, an dëst face_id Bild gëtt dann benotzt fir d'Identitéit Ähnlechkeet vun der Interferenzgeneratioun ze verbesseren.

Beweegt laanscht, baséiert op den Ensembelprozess, trainéiert de Kader d'LoRA Modeller mat Wahrscheinlechkeetsschätzung als primär Zil, wärend d'Erhaalung vun der Gesiichtsidentitéit Ähnlechkeet dat Downstream Zil ass. Fir dëst Thema unzegoen, benotzt den EasyPhoto Kader Verstäerkung Léiertechniken fir den Downstream Objektiv direkt ze optimiséieren. Als Resultat weisen d'Gesiichtsmerkmale déi d'LoRA Modeller léieren eng Verbesserung déi zu enger verstäerkter Ähnlechkeet tëscht de Schabloun generéiert Resultater féiert, an och d'Generaliséierung iwwer Templates demonstréiert.

Interferenz Prozess

Déi folgend Figur weist den Interferenzprozess fir eng individuell User ID am EasyPhoto Kader, an ass an dräi Deeler opgedeelt

Gesiicht Preprocess fir d'ControlNet Referenz ze kréien, an dat virveraarbechtte Inputbild.

Éischt Diffusioun dat hëlleft fir graff Resultater ze generéieren déi dem Benotzerinput gleewen.

Zweet Diffusioun dat fixéiert d'Grenzartefakte, sou datt d'Biller méi genee ginn a méi realistesch ausgesinn.

Fir den Input hëlt de Kader e Face_id Bild (generéiert wärend Trainingsvalidatioun mat der optimaler Face_id Score), an eng Interferenz Schabloun. D'Output ass en héich detailléierten, präzis a realistesche Portrait vum Benotzer, a gläicht d'Identitéit an d'eenzegaarteg Erscheinung vum Benotzer op Basis vun der Infer Template. Loosst eis en detailléierte Bléck op dës Prozesser hunn.

Gesiicht PreProcess

E Wee fir en AI Portrait ze generéieren op Basis vun enger Interferenz Template ouni bewosst Begrënnung ass den SD Modell ze benotzen fir d'Gesiichtsregioun an der Interferenz Template ze malen. Zousätzlech, d'Addéiere vum ControlNet Kader zum Prozess verbessert net nëmmen d'Erhaalung vun der Benotzeridentitéit, awer verbessert och d'Ähnlechkeet tëscht de generéierte Biller. Wéi och ëmmer, d'Benotzung vu ControlNet direkt fir regional Inpainting kann potenziell Themen aféieren déi enthalen kënnen

Inkonsistenz tëscht dem Input an dem generéierte Bild: Et ass evident datt d'Schlësselpunkten am Schablounbild net kompatibel sinn mat de Schlësselpunkten am Face_id Bild, dofir kann d'Benotzung vu ControlNet mam Face_id Bild als Referenz zu e puer Inkonsistenz am Ausgang féieren.

Mängel an der Inpaint Regioun: Eng Regioun ze maskéieren, an dann mat engem neie Gesiicht ze malen, kéint zu merkbare Mängel féieren, besonnesch laanscht d'Inpaint Grenz, déi net nëmmen d'Authentizitéit vum generéierte Bild beaflossen, awer och den Realismus vum Bild negativ beaflossen.
Identitéitsverloscht duerch Kontroll Net: Well den Trainingsprozess de ControlNet Kader net benotzt, kann d'Benotzung vu ControlNet während der Interferenzphase d'Fäegkeet vun den trainéierten LoRA Modeller beaflossen fir d'Input User ID Identitéit ze erhaalen.

Fir déi uewe genannten Themen unzegoen, proposéiert de EasyPhoto Kader dräi Prozeduren.

Alignéieren a Paste: Andeems Dir e Face-Paste Algorithmus benotzt, zielt den EasyPhoto Kader d'Fro vum Mëssmatch tëscht Gesiichtslandmarken tëscht der Gesiichts-ID an der Schabloun unzegoen. Als éischt berechent de Modell d'Gesiichtslandmarken vum face_id an dem Templatebild, duerno bestëmmt de Modell d'affin Transformatiounsmatrix déi benotzt gëtt fir d'Gesiichtslandmarken vum Templatebild mam Face_id Bild auszegläichen. Dat resultéierend Bild behält déiselwecht Landmarken vum Face_id Bild, an alignéiert och mam Schablounbild.

Gesiicht Fuse: Face Fuse ass eng nei Approche déi benotzt gëtt fir d'Grenzartefakte ze korrigéieren déi e Resultat vu Maskinpainting sinn, an et beinhalt d'Rectifizéierung vun Artefakte mam ControlNet Kader. D'Methode erlaabt dem EasyPhoto Kader d'Erhaalung vun harmonesche Kanten ze garantéieren, an domat schlussendlech de Prozess vun der Bildgeneratioun ze guidéieren. De Gesiicht Fusioun Algorithmus fusionéiert weider d'Roop (Ground Truth User Biller) Bild & d'Schabloun, dat erlaabt dat resultéierend verschmolzte Bild besser Stabiliséierung vun de Randgrenzen ze weisen, wat dann zu engem verstäerkten Output während der éischter Diffusiounsstadium féiert.
ControlNet guidéiert Validatioun: Zënter datt d'LoRA Modeller net mat dem ControlNet Kader trainéiert goufen, kann et während dem Inferenzprozess d'Fäegkeet vum LoRA Modell beaflossen fir d'Identitéiten ze erhaalen. Fir d'Generaliséierungsfäegkeeten vun EasyPhoto ze verbesseren, betruecht de Kader den Afloss vum ControlNet Kader, an integréiert LoRA Modeller aus verschiddene Stadien.

Éischt Diffusioun

Déi éischt Diffusiounsstadium benotzt d'Schablounbild fir e Bild mat enger eenzegaarteger ID ze generéieren déi d'Input Benotzer ID ähnelt. D'Inputbild ass eng Fusioun vum Benotzerinputbild, an dem Schablounbild, wärend déi kalibréiert Gesiichtsmaske d'Input Mask ass. Fir d'Kontroll iwwer d'Bildgeneratioun weider ze erhéijen, integréiert den EasyPhoto Framework dräi ControlNet Eenheeten, wou déi éischt ControlNet Eenheet sech op d'Kontroll vun de verschmolzene Biller konzentréiert, déi zweet ControlNet Eenheet kontrolléiert d'Faarwen vum verschmolzene Bild, an déi lescht ControlNet Eenheet ass den Openpose (Echtzäit Multi-Persoun Mënsch Pose Kontroll) vum ersat Bild dat net nëmmen d'Gesiichtsstruktur vum Schablounbild enthält, awer och d'Gesiichtsidentitéit vum Benotzer.

Zweet Diffusioun

An der zweeter Diffusiounsstadium sinn d'Artefakte no bei der Grenz vum Gesiicht raffinéiert a fein ofgestëmmt zesumme mat de Benotzer d'Flexibilitéit ze bidden fir eng spezifesch Regioun am Bild ze maskéieren an engem Versuch d'Effektivitéit vun der Generatioun an deem engagéierten Gebitt ze verbesseren. An dëser Etapp fusionéiert de Kader d'Ausgangsbild, déi vun der éischter Diffusiounsstadium kritt gëtt, mam Roopbild oder dem Resultat vum Bild vum Benotzer, sou datt d'Inputbild fir déi zweet Diffusiounsstadium generéiert. Insgesamt spillt déi zweet Diffusiounsstuf eng entscheedend Roll fir d'Gesamtqualitéit ze verbesseren an d'Detailer vum generéierte Bild.

Multi Benotzer IDen

Ee vun den Highlights vun EasyPhoto ass seng Ënnerstëtzung fir verschidde Benotzer IDen ze generéieren, an d'Figur hei ënnen weist d'Pipeline vum Interferenzprozess fir Multi User IDen am EasyPhoto Kader.

Fir Ënnerstëtzung fir Multi-User ID Generatioun ze bidden, mécht de EasyPhoto Kader fir d'éischt Gesiichtserkennung op der Interferenzschabloun. Dës Interferenz Template ginn dann a vill Masken opgedeelt, wou all Mask nëmmen ee Gesiicht enthält, an de Rescht vum Bild ass a wäiss maskéiert, sou datt d'Multi-User ID Generatioun an eng einfach Aufgab briechen fir eenzel Benotzer IDen ze generéieren. Wann de Kader d'Benotzer ID Biller generéiert, ginn dës Biller an d'Inferenz Schabloun fusionéiert, sou datt eng nahtlos Integratioun vun de Schablounbiller mat de generéierte Biller erliichtert gëtt, wat schlussendlech zu engem héichqualitativen Bild resultéiert.

Experimenter a Resultater

Elo datt mir e Verständnis vum EasyPhoto Kader hunn, ass et Zäit fir eis d'Performance vum EasyPhoto Kader ze entdecken.

Dat uewe genannte Bild gëtt vum EasyPhoto Plugin generéiert, an et benotzt e Style baséiert SD Modell fir d'Bildgeneratioun. Wéi et ka beobachtet ginn, kucken déi generéiert Biller realistesch a si ganz korrekt.

D'Bild hei uewen ass generéiert vum EasyPhoto Kader mat engem Comic Style baséiert SD Modell. Wéi et ka gesi ginn, sinn d'Comic-Fotoen, an déi realistesch Fotoen zimlech realistesch, a gläichen d'Input-Bild op Basis vun de Benotzer Ufuerderungen oder Ufuerderungen.

D'Bild hei drënner bäigefüügt gouf vum EasyPhoto Kader generéiert andeems Dir eng Multi-Person Schabloun benotzt. Wéi et kloer ka gesi ginn, sinn d'Biller generéiert kloer, präzis a gläichen dem Originalbild.

Mat der Hëllef vun EasyPhoto kënnen d'Benotzer elo eng breet Palette vun AI Portraiten generéieren, oder verschidde Benotzer-IDs generéieren mat preservéierten Templates, oder den SD-Modell benotze fir Inferenz Templates ze generéieren. D'Biller uewe bäigefüügt weisen d'Fäegkeet vum EasyPhoto Framework bei der Produktioun vun diversen an héichqualitativen AI Biller.

Konklusioun

An dësem Artikel hu mir iwwer EasyPhoto geschwat, a neie WebUI Plugin dat erlaabt Endbenotzer AI Portraiten & Biller ze generéieren. Den EasyPhoto WebUI Plugin generéiert AI Portraite mat arbiträren Templates, an déi aktuell Implikatioune vum EasyPhoto WebUI ënnerstëtzt verschidde Fotostiler a verschidde Ännerunge. Zousätzlech, fir d'Fähigkeiten vun EasyPhoto weider ze verbesseren, hunn d'Benotzer d'Flexibilitéit fir Biller mat dem SDXL Modell ze generéieren fir méi zefriddestellend, korrekt a divers Biller ze generéieren. Den EasyPhoto Framework benotzt e stabile Diffusiounsbasismodell gekoppelt mat engem pretrained LoRA Modell deen héichqualitativ Bildausgaben produzéiert.

Interesséiert fir Bildgeneratoren? Mir bidden och eng Lëscht vun de Beschte AI Headshot Generatoren an der Beschte AI Image Generatoren déi einfach ze benotzen sinn a keng technesch Expertise erfuerderen.

Verknäppt Themen:easyphoto

No weider

10 Bescht AI E-Mail Generatoren (November 2023)

Hu keng Miss

Google's strategesch Expansioun an AI: Eng $ 2 Milliarde Wette op Anthropic

Kunal Kejriwal

"En Ingenieur vu Beruff, e Schrëftsteller aus Häerz". Kunal ass en technesche Schrëftsteller mat enger déiwer Léift a Verständnis vun AI an ML, gewidmet fir komplex Konzepter an dëse Felder ze vereinfachen duerch seng engagéiert an informativ Dokumentatioun.

Unite.AI

EasyPhoto: Äre perséinlechen AI Photo Generator

Kënschtlech Intelligenz

EasyPhoto: Äre perséinlechen AI Photo Generator

Inhaltsverzeechnes

Eng Aféierung zu EasyPhoto a Stabil Diffusioun

EasyPhoto: Architektur & Training