Изкуствен интелект

EasyPhoto: Вашият личен AI фотогенератор

Обновено on Октомври 30, 2023

EasyPhoto: Вашият личен AI портретен генератор

Стабилна дифузия Уеб потребителският интерфейс или SD-WebUI е цялостен проект за модели Stable Diffusion, който използва библиотеката Gradio, за да предостави интерфейс на браузъра. Днес ще говорим за EasyPhoto, иновативен WebUI плъгин, позволяващ на крайните потребители да генерират AI портрети и изображения. Плъгинът EasyPhoto WebUI създава AI портрети с помощта на различни шаблони, поддържащи различни стилове на снимки и множество модификации. Освен това, за да подобрят още повече възможностите на EasyPhoto, потребителите могат да генерират изображения с помощта на SDXL модела за по-задоволителни, точни и разнообразни резултати. Нека да започнем.

Въведение в EasyPhoto и Stable Diffusion

Рамката Stable Diffusion е популярна и стабилна рамка за генериране, базирана на дифузия, използвана от разработчиците за генериране на реалистични изображения въз основа на входни текстови описания. Благодарение на възможностите си, рамката Stable Diffusion може да се похвали с широк набор от приложения, включително преобразуване на изображения, вписване на изображения и превод от изображение към изображение. Stable Diffusion Web UI или SD-WebUI се откроява като едно от най-популярните и добре познати приложения на тази рамка. Той разполага с интерфейс на браузър, изграден върху библиотеката Gradio, предоставящ интерактивен и удобен за потребителя интерфейс за модели Stable Diffusion. За допълнително подобряване на контрола и използваемостта при генериране на изображения, SD-WebUI интегрира множество приложения за стабилна дифузия.

Благодарение на удобството, предлагано от рамката SD-WebUI, разработчиците на рамката EasyPhoto решиха да я създадат като уеб плъгин, а не като пълноценно приложение. За разлика от съществуващите методи, които често страдат от загуба на идентичност или въвеждат нереалистични характеристики в изображенията, рамката EasyPhoto използва възможностите от изображение към изображение на моделите Stable Diffusion, за да създаде точни и реалистични изображения. Потребителите могат лесно да инсталират рамката EasyPhoto като разширение в рамките на WebUI, подобрявайки удобството и достъпността за по-широк кръг потребители. Рамката EasyPhoto позволява на потребителите да генерират ръководени за самоличност, висококачествени и реалистични AI портрети които много приличат на входната идентичност.

Първо, рамката EasyPhoto изисква от потребителите да създадат свой дигитален двойник, като качат няколко изображения, за да обучат лице LoRA или модел за адаптация от нисък ранг онлайн. Рамката LoRA бързо настройва фино дифузионните модели, като използва технология за адаптация от нисък ранг. Този процес позволява на базирания модел да разбере ID информацията на конкретни потребители. След това обучените модели се обединяват и интегрират в базовия модел на стабилна дифузия за смущения. Освен това, по време на процеса на интерференция, моделът използва стабилни дифузионни модели в опит да пребоядиса регионите на лицето в шаблона за интерференция, а приликата между входните и изходните изображения се проверява с помощта на различните ControlNet единици.

Рамката EasyPhoto също използва двуетапен процес на разпространение за справяне с потенциални проблеми като гранични артефакти и загуба на идентичност, като по този начин гарантира, че генерираните изображения минимизират визуалните несъответствия, като същевременно запазват самоличността на потребителя. Освен това тръбопроводът за смущения в рамката EasyPhoto не е ограничен само до генериране на портрети, но може да се използва и за генериране на всичко, което е свързано с ID на потребителя. Това означава, че след като тренирате Модел LoRA за конкретен идентификатор можете да генерирате широк набор от AI картини и по този начин той може да има широко разпространени приложения, включително виртуални пробвания.

Така да обобщим, рамката EasyPhoto

Предлага нов подход за обучение на модела LoRA чрез включване на множество модели LoRA за поддържане на верността на лицето на генерираните изображения.
Използва различни методи за обучение за укрепване, за да оптимизира моделите на LoRA за награди за лицева идентичност, което допълнително помага за подобряване на сходството на идентичностите между изображенията за обучение и генерираните резултати.
Предлага двуетапен процес на дифузия, базиран на боя, който има за цел да генерира AI снимки с висока естетика и прилика.

EasyPhoto : Архитектура и обучение

Следващата фигура демонстрира процеса на обучение на рамката EasyPhoto AI.

Както може да се види, рамката първо иска от потребителите да въведат обучителните изображения и след това извършва разпознаване на лица, за да открие местоположението на лицата. След като рамката разпознае лицето, тя изрязва входното изображение, като използва предварително зададено специфично съотношение, което се фокусира единствено върху областта на лицето. След това рамката разгръща модел за разкрасяване на кожата и откриване на изпъкналост, за да се получи чисто и ясно изображение за обучение на лицето. Тези два модела играят решаваща роля за подобряване на визуалното качество на лицето и също така гарантират, че фоновата информация е премахната и изображението за обучение съдържа предимно лицето. И накрая, рамката използва тези обработени изображения и подкани за въвеждане, за да обучи модела LoRA и по този начин го оборудва със способността да разбира по-ефективно и точно характеристиките на лицето на потребителя.

Освен това, по време на фазата на обучение, рамката включва критична стъпка за валидиране, в която рамката изчислява разликата в ID на лицето между въведеното от потребителя изображение и изображението за проверка, което е генерирано от обучения LoRA модел. Стъпката на валидиране е основен процес, който играе ключова роля в постигането на сливането на моделите на LoRA, като в крайна сметка гарантира, че обучена LoRA рамка се трансформира в двойник или точно цифрово представяне на потребителя. Освен това изображението за проверка, което има оптимален резултат за face_id, ще бъде избрано като изображение face_id и това изображение face_id след това ще се използва за подобряване на сходството на идентичността на генерирането на смущения.

Придвижвайки се, въз основа на процеса на ансамбъла, рамката обучава моделите LoRA, като оценката на вероятността е основната цел, докато запазването на сходството на лицевата идентичност е целта надолу по веригата. За да се справи с този проблем, рамката EasyPhoto използва техники за обучение за укрепване, за да оптимизира директно целта надолу по веригата. В резултат на това чертите на лицето, които моделите на LoRA научават, показват подобрение, което води до подобрено сходство между генерираните от шаблона резултати и също така демонстрира обобщението между шаблоните.

Процес на интерференция

Следната фигура демонстрира процеса на намеса за индивидуален потребителски идентификатор в рамката EasyPhoto и е разделена на три части

Предварителна обработка на лицето за получаване на препратката на ControlNet и предварително обработеното входно изображение.

Първа дифузия което помага при генерирането на груби резултати, които приличат на въведеното от потребителя.

Втора дифузия който фиксира граничните артефакти, като по този начин прави изображенията по-точни и изглеждат по-реалистични.

За вход рамката приема изображение на face_id (генерирано по време на валидиране на обучението, използвайки оптималния резултат за face_id) и шаблон за намеса. Резултатът е много подробен, точен и реалистичен портрет на потребителя и много прилича на самоличността и уникалния външен вид на потребителя въз основа на шаблона за извеждане. Нека да разгледаме подробно тези процеси.

Предварителен процес на лице

Начин за генериране на AI портрет въз основа на шаблон за намеса без съзнателно разсъждение е да се използва моделът SD за рисуване на областта на лицето в шаблона за намеса. Освен това, добавянето на рамката ControlNet към процеса не само подобрява запазването на идентичността на потребителя, но също така подобрява сходството между генерираните изображения. Въпреки това, използването на ControlNet директно за регионално рисуване може да доведе до потенциални проблеми, които може да включват

Несъответствие между входа и генерираното изображение: Очевидно е, че ключовите точки в изображението на шаблона не са съвместими с ключовите точки в изображението face_id, поради което използването на ControlNet с изображението face_id като референция може да доведе до някои несъответствия в изхода.

Дефекти в района на Inpaint: Маскирането на регион и след това рисуването му с ново лице може да доведе до забележими дефекти, особено по протежение на границата на рисуване, което не само ще повлияе на автентичността на генерираното изображение, но също така ще повлияе отрицателно на реализма на изображението.
Загуба на самоличност от Control Net: Тъй като процесът на обучение не използва рамката ControlNet, използването на ControlNet по време на фазата на смущение може да повлияе на способността на обучените LoRA модели да запазят самоличността на входния потребителски идентификатор.

За справяне с проблемите, споменати по-горе, рамката EasyPhoto предлага три процедури.

Подравнете и поставете: Чрез използване на алгоритъм за поставяне на лице, рамката EasyPhoto има за цел да се справи с проблема с несъответствието между лицевите ориентири между идентификатора на лицето и шаблона. Първо, моделът изчислява ориентирите на лицето на face_id и изображението на шаблона, след което моделът определя матрицата за афинна трансформация, която ще се използва за подравняване на ориентирите на лицето на изображението на шаблона с изображението face_id. Полученото изображение запазва същите ориентири на изображението face_id и също се подравнява с изображението на шаблона.

Предпазител за лице: Face Fuse е нов подход, който се използва за коригиране на граничните артефакти, които са резултат от рисуване на маска, и включва коригиране на артефакти с помощта на рамката ControlNet. Методът позволява на рамката EasyPhoto да гарантира запазването на хармоничните ръбове и по този начин в крайна сметка да ръководи процеса на генериране на изображението. Алгоритъмът за сливане на лица допълнително слива изображението roop (ползвателни изображения на истината за земята) и шаблона, което позволява на полученото слято изображение да показва по-добра стабилизация на границите на ръба, което след това води до подобрен резултат по време на първия етап на дифузия.
ControlNet насочвано валидиране: Тъй като моделите LoRA не са обучени с помощта на рамката ControlNet, използването й по време на процеса на извод може да повлияе на способността на модела LoRA да запазва идентичностите. За да се подобрят възможностите за обобщаване на EasyPhoto, рамката отчита влиянието на рамката ControlNet и включва LoRA модели от различни етапи.

Първа дифузия

Първият етап на разпространение използва изображението на шаблона, за да генерира изображение с уникален идентификатор, който прилича на въведения потребителски идентификатор. Входното изображение е комбинация от въведеното от потребителя изображение и изображението на шаблона, докато калибрираната маска за лице е входната маска. За по-нататъшно увеличаване на контрола върху генерирането на изображения, рамката EasyPhoto интегрира три ControlNet модула, където първият ControlNet модул се фокусира върху контрола на обединените изображения, вторият ControlNet модул контролира цветовете на обединения образ, а последният ControlNet модул е openpose (контрол на човешката поза на много хора в реално време) на замененото изображение, което не само съдържа лицевата структура на изображението на шаблона, но също така и лицевата идентичност на потребителя.

Втора дифузия

Във втория етап на дифузия артефактите в близост до границата на лицето се усъвършенстват и фино настройват заедно с предоставянето на потребителите на гъвкавостта да маскират конкретен регион в изображението в опит да се подобри ефективността на генериране в тази специална област. В този етап рамката слива изходното изображение, получено от първия етап на дифузия, с изображението на кръга или резултата от изображението на потребителя, като по този начин генерира входното изображение за втория етап на дифузия. Като цяло вторият етап на дифузия играе решаваща роля за подобряване на цялостното качество и детайлите на генерираното изображение.

Множество потребителски идентификатори

Един от акцентите на EasyPhoto е неговата поддръжка за генериране на множество потребителски идентификатори, а фигурата по-долу демонстрира процеса на намеса за множество потребителски идентификатори в рамката на EasyPhoto.

За да осигури поддръжка за генериране на ID за много потребители, рамката EasyPhoto първо извършва разпознаване на лица върху шаблона за смущения. След това тези интерферентни шаблони се разделят на множество маски, като всяка маска съдържа само едно лице, а останалата част от изображението е маскирана в бяло, като по този начин се разделя генерирането на ID на много потребители в проста задача за генериране на индивидуални идентификатори на потребители. След като рамката генерира изображенията за потребителски идентификатор, тези изображения се обединяват в шаблона за извод, като по този начин улесняват безпроблемното интегриране на изображенията на шаблона с генерираните изображения, което в крайна сметка води до висококачествено изображение.

Експерименти и резултати

Сега, след като вече разбираме рамката EasyPhoto, е време да проучим ефективността на рамката EasyPhoto.

Изображението по-горе е генерирано от приставката EasyPhoto и използва базиран на стил SD модел за генериране на изображението. Както може да се види, генерираните изображения изглеждат реалистични и са доста точни.

Изображението, добавено по-горе, е генерирано от рамката EasyPhoto, използвайки SD модел, базиран на Comic Style. Както може да се види, комичните снимки и реалистичните снимки изглеждат доста реалистични и много приличат на входното изображение въз основа на подканите или изискванията на потребителя.

Изображението, добавено по-долу, е генерирано от рамката EasyPhoto чрез използването на шаблон за много лица. Както може да се види ясно, генерираните изображения са ясни, точни и наподобяват оригиналното изображение.

С помощта на EasyPhoto потребителите вече могат да генерират широк набор от AI портрети или да генерират множество потребителски идентификатори, като използват запазени шаблони, или да използват SD модела за генериране на шаблони за изводи. Добавените по-горе изображения демонстрират способността на рамката EasyPhoto да създава разнообразни и висококачествени AI снимки.

Заключение

В тази статия говорихме за EasyPhoto, a нов WebUI плъгин което позволява на крайните потребители да генерират AI портрети и изображения. Приставката EasyPhoto WebUI генерира AI портрети, използвайки произволни шаблони, а текущите последици от EasyPhoto WebUI поддържат различни стилове на снимки и множество модификации. Освен това, за допълнително подобряване на възможностите на EasyPhoto, потребителите имат гъвкавостта да генерират изображения, използвайки SDXL модела, за да генерират по-задоволителни, точни и разнообразни изображения. Рамката EasyPhoto използва стабилен базов модел на дифузия, съчетан с предварително обучен LoRA модел, който произвежда висококачествени изображения.

Интересувате ли се от генератори на изображения? Предоставяме и списък на Най-добрите AI генератори на хедшоти и Най-добрите AI генератори на изображения които са лесни за използване и не изискват технически познания.

Свързани теми:easyphoto

Следва

10 най-добри AI генератори на имейли (ноември 2023 г.)

Не пропускайте

Стратегическата експанзия на Google в AI: Залог от 2 милиарда долара за Anthropic

Кунал Кейривал

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.

Обединете.AI

EasyPhoto: Вашият личен AI фотогенератор

Изкуствен интелект

EasyPhoto: Вашият личен AI фотогенератор

Съдържание

Въведение в EasyPhoto и Stable Diffusion

EasyPhoto : Архитектура и обучение