Вештачка интелигенција

EasyPhoto: Вашиот личен генератор на фотографии со вештачка интелигенција

Ажурирани on Октомври 30, 2023

EasyPhoto: Вашиот личен генератор на портрети со вештачка интелигенција

Стабилна дифузија Веб кориснички интерфејс, или SD-WebUI, е сеопфатен проект за модели со стабилна дифузија што ја користи библиотеката Gradio за да обезбеди интерфејс на прелистувачот. Денес, ќе зборуваме за EasyPhoto, иновативен приклучок за WebUI кој им овозможува на крајните корисници да генерираат портрети и слики со вештачка интелигенција. Приклучокот EasyPhoto WebUI создава портрети со вештачка интелигенција користејќи различни шаблони, поддржувајќи различни стилови на фотографии и повеќе модификации. Дополнително, за дополнително подобрување на можностите на EasyPhoto, корисниците можат да генерираат слики користејќи го моделот SDXL за позадоволителни, прецизни и разновидни резултати. Да почнеме.

Вовед во EasyPhoto и стабилна дифузија

Рамката за стабилна дифузија е популарна и робусна генерирана рамка заснована на дифузија што ја користат програмерите за да генерираат реални слики врз основа на описи на влезен текст. Благодарение на неговите способности, рамката за стабилна дифузија може да се пофали со широк опсег на апликации, вклучувајќи сликање надвор од сликата, сликање внатре и превод од слика во слика. Стабилниот дифузен веб UI, или SD-WebUI, се издвојува како една од најпопуларните и најпознатите апликации на оваа рамка. Се одликува со интерфејс за прелистувач изграден на библиотеката Gradio, обезбедувајќи интерактивен и лесен интерфејс за моделите со стабилна дифузија. За дополнително подобрување на контролата и употребливоста во генерирањето слики, SD-WebUI интегрира бројни апликации за стабилна дифузија.

Поради практичноста што ја нуди рамката SD-WebUI, програмерите на рамката EasyPhoto одлучија да ја создадат како веб-приклучок наместо полноправна апликација. За разлика од постоечките методи кои честопати страдаат од губење на идентитетот или воведуваат нереални карактеристики во сликите, рамката EasyPhoto ги користи можностите слика-на-слика на моделите Stable Diffusion за да произведе точни и реални слики. Корисниците можат лесно да ја инсталираат рамката EasyPhoto како екстензија во рамките на WebUI, со што ќе се подобри прилагодливоста и пристапноста до поширок опсег на корисници. Рамката EasyPhoto им овозможува на корисниците да генерираат водени од идентитетот, висококвалитетни и реални портрети со вештачка интелигенција кои многу личат на влезниот идентитет.

Прво, рамката EasyPhoto бара од корисниците да го создадат својот дигитален доплет со прикачување на неколку слики за да обучат лице LoRA или модел за адаптација со низок ранг на интернет. Рамката LoRA брзо ги дотерува моделите на дифузија со користење на технологија за адаптација со низок ранг. Овој процес му овозможува на базираниот модел да ги разбере информациите за ID на одредени корисници. Обучените модели потоа се спојуваат и интегрираат во основниот модел за стабилна дифузија за пречки. Понатаму, за време на процесот на пречки, моделот користи модели на стабилна дифузија во обид да ги обои фацијалните области во шаблонот за пречки, а сличноста помеѓу влезните и излезните слики се проверува со користење на различни единици ControlNet.

Рамката EasyPhoto, исто така, распоредува процес на дифузија во две фази за да се справи со потенцијалните проблеми како артефакти на границите и губење на идентитетот, со што се осигурува дека генерираните слики ги минимизираат визуелните недоследности додека го одржуваат идентитетот на корисникот. Понатаму, цевководот за пречки во рамката EasyPhoto не е ограничен само на генерирање портрети, туку може да се користи и за генерирање на се што е поврзано со ID на корисникот. Ова имплицира дека откако ќе го обучите LoRA модел за одреден ID, можете да генерирате широк спектар на слики со вештачка интелигенција, и на тој начин може да има широко распространети апликации вклучувајќи виртуелни обиди.

Да резимираме, рамката EasyPhoto

Предлага нов пристап за обука на моделот LoRA со инкорпорирање на повеќе модели на LoRA за одржување на верноста на лицето на генерираните слики.
Користи различни методи за учење за зајакнување за да ги оптимизира моделите на LoRA за награди за идентитетот на лицето, што дополнително помага во подобрувањето на сличноста на идентитетите помеѓу сликите за обука и генерираните резултати.
Предлага процес на дифузија базиран на боја во две фази, кој има за цел да генерира фотографии со вештачка интелигенција со висока естетика и сличност.

EasyPhoto: Архитектура и обука

Следната слика го прикажува процесот на обука на рамката EasyPhoto AI.

Како што може да се види, рамката прво бара од корисниците да ги внесат сликите од обуката, а потоа врши детекција на лице за да ги открие локациите на лицата. Штом рамката ќе го открие лицето, ја отсекува влезната слика користејќи претходно дефиниран специфичен сооднос кој се фокусира исклучиво на пределот на лицето. Рамката потоа распоредува разубавување на кожата и модел за откривање на истакнатост за да се добие чиста и јасна слика за обука на лице. Овие два модели играат клучна улога во подобрувањето на визуелниот квалитет на лицето, а исто така гарантираат дека информациите за заднината се отстранети, а сликата за вежбање претежно го содржи лицето. Конечно, рамката ги користи овие обработени слики и сигнали за внесување за да го обучи моделот LoRA и на тој начин да го опреми со способност поефикасно и попрецизно да ги разбере карактеристиките на лицето специфични за корисникот.

Понатаму, за време на фазата на обука, рамката вклучува критичен чекор за валидација, во кој рамката го пресметува јазот за ID на лице помеѓу внесената слика на корисникот и сликата за верификација што беше генерирана од обучениот LoRA модел. Чекорот на валидација е фундаментален процес кој игра клучна улога во постигнувањето на спојување на LoRA моделите, на крајот осигурувајќи дека обучена LoRA рамка се трансформира во doppelganger, или точна дигитална репрезентација на корисникот. Дополнително, сликата за верификација која има оптимален резултат face_id ќе биде избрана како слика face_id, а оваа слика face_id потоа ќе се користи за подобрување на идентитетската сличност на генерацијата на пречки.

Движејќи се заедно, врз основа на процесот на ансамблот, рамката ги обучува моделите на LoRA со проценка на веројатноста да биде примарна цел, додека зачувувањето на сличноста на идентитетот на лицето е целта низводно. За да се справи со ова прашање, рамката EasyPhoto користи техники за учење за зајакнување за директно да ја оптимизира целта низводно. Како резултат на тоа, карактеристиките на лицето што ги учат моделите на LoRA прикажуваат подобрување што доведува до зголемена сличност помеѓу резултатите генерирани од шаблонот, а исто така ја демонстрира генерализацијата меѓу шаблоните.

Процес на мешање

Следната слика го прикажува процесот на пречки за индивидуален кориснички ID во рамката EasyPhoto и е поделен на три дела

Претпроцес на лице за добивање на референцата ControlNet и претходно обработената влезна слика.

Прва дифузија што помага да се генерираат груби резултати што личат на внесувањето на корисникот.

Втора дифузија што ги поправа граничните артефакти, со што ги прави сликите попрецизни и изгледаат пореални.

За влез, рамката зема слика face_id (генерирана за време на валидацијата на обуката користејќи оптимален резултат face_id) и шаблон за пречки. Излезот е многу детален, прецизен и реален портрет на корисникот и многу наликува на идентитетот и уникатниот изглед на корисникот врз основа на шаблонот за заклучување. Ајде да ги разгледаме овие процеси детално.

Предпроцес на лице

Начин да се генерира портрет со вештачка интелигенција заснован на шаблон за пречки без свесно расудување е да се користи моделот SD за да се наслика пределот на лицето во шаблонот за пречки. Дополнително, додавањето на рамката ControlNet на процесот не само што го подобрува зачувувањето на идентитетот на корисникот, туку и ја подобрува сличноста помеѓу генерираните слики. Сепак, директното користење на ControlNet за регионално сликање може да воведе потенцијални проблеми што може да вклучуваат

Неконзистентност помеѓу влезот и генерираната слика: Очигледно е дека клучните точки на сликата на шаблонот не се компатибилни со клучните точки на сликата face_id, поради што користењето на ControlNet со сликата face_id како референца може да доведе до некои недоследности во излезот.

Дефекти во регионот на Inpaint: Маскирањето регион, а потоа негово сликање со ново лице може да доведе до забележителни дефекти, особено долж границата на бојата што не само што ќе влијае на автентичноста на генерираната слика, туку и негативно ќе влијае на реализмот на сликата.
Загуба на идентитет од контролната мрежа: Бидејќи процесот на обука не ја користи рамката ControlNet, користењето на ControlNet за време на фазата на пречки може да влијае на способноста на обучените LoRA модели да го зачуваат идентитетот на влезниот кориснички ID.

За да се справи со проблемите споменати погоре, рамката EasyPhoto предлага три процедури.

Порамнете и залепете: Со користење на алгоритам за вметнување лице, рамката EasyPhoto има за цел да се справи со проблемот на несовпаѓање помеѓу обележјата на лицето помеѓу идентификацијата на лицето и шаблонот. Прво, моделот ги пресметува обележјата на лицето на face_id и сликата на шаблонот, по што моделот ја одредува матрицата за афина трансформација што ќе се користи за усогласување на обележјата на лицето на сликата на шаблонот со сликата на face_id. Добиената слика ги задржува истите обележја на сликата face_id, а исто така се усогласува со сликата на шаблонот.

Осигурувач за лице: Осигурувачот за лице е нов пристап што се користи за корекција на граничните артефакти кои се резултат на бојадисување на маската и вклучува исправување на артефактите со помош на рамката ControlNet. Методот овозможува рамката EasyPhoto да обезбеди зачувување на хармоничните рабови, а со тоа на крајот да го води процесот на генерирање слики. Алгоритмот за фузија на лице дополнително ја спојува сликата на roop (приземјени кориснички слики на вистината) и шаблонот, што овозможува добиената сплотена слика да покаже подобра стабилизација на границите на рабовите, што потоа води до подобрен излез во текот на првата фаза на дифузија.
Валидација водена од ControlNet: Бидејќи моделите LoRA не беа обучени со користење на рамката ControlNet, нејзиното користење за време на процесот на заклучување може да влијае на способноста на моделот LoRA да ги зачува идентитетите. Со цел да се подобрат можностите за генерализација на EasyPhoto, рамката го зема предвид влијанието на рамката ControlNet и вклучува LoRA модели од различни фази.

Прва дифузија

Првата фаза на дифузија ја користи сликата на шаблонот за да генерира слика со единствена идентификација која личи на влезната корисничка идентификација. Влезната слика е спој на сликата на корисникот и сликата на шаблонот, додека калибрираната маска за лице е влезна маска. За дополнително да се зголеми контролата врз генерирањето слики, рамката EasyPhoto интегрира три контролни единици каде што првата единица ControlNet се фокусира на контролата на споените слики, втората единица ControlNet ги контролира боите на споената слика, а последната контролна единица е отворена (контрола на човечка поза со повеќе лица во реално време) на заменетата слика која не само што ја содржи структурата на лицето на сликата на шаблонот, туку и идентитетот на лицето на корисникот.

Втора дифузија

Во втората фаза на дифузија, артефактите во близина на границата на лицето се рафинирани и фино подесени заедно со овозможување на корисниците флексибилност да маскираат одреден регион на сликата во обид да се подобри ефикасноста на генерирањето во таа посветена област. Во оваа фаза, рамката ја спојува излезната слика добиена од првата фаза на дифузија со руп сликата или резултатот од сликата на корисникот, со што се генерира влезната слика за втората фаза на дифузија. Генерално, втората фаза на дифузија игра клучна улога во подобрувањето на севкупниот квалитет и деталите за генерираната слика.

ИД со повеќе корисници

Едно од најважните моменти на EasyPhoto е неговата поддршка за генерирање на повеќе кориснички идентификатори, а сликата подолу ја демонстрира линијата на процесот на пречки за идентификација на повеќе корисници во рамката EasyPhoto.

За да обезбеди поддршка за генерирање идентификација од повеќе корисници, рамката EasyPhoto најпрво врши откривање лице на шаблонот за пречки. Овие шаблони за пречки потоа се делат на бројни маски, каде што секоја маска содржи само едно лице, а остатокот од сликата е маскиран во бело, со што се разбива генерацијата на идентификатори со повеќе корисници во едноставна задача за генерирање индивидуални кориснички идентификатори. Откако рамката ќе ги генерира сликите на корисничкиот ID, овие слики се спојуваат во шаблонот за заклучоци, со што се олеснува беспрекорната интеграција на сликите на шаблоните со генерираните слики, што на крајот резултира со висококвалитетна слика.

Експерименти и резултати

Сега кога ја разбравме рамката EasyPhoto, време е да ги истражиме перформансите на рамката EasyPhoto.

Горенаведената слика е генерирана од приклучокот EasyPhoto и користи SD модел базиран на стил за генерирање слики. Како што може да се забележи, генерираните слики изгледаат реално и се доста точни.

Сликата додадена погоре е генерирана од рамката EasyPhoto користејќи SD модел базиран на стрип стил. Како што може да се види, комичните фотографии и реалистичните фотографии изгледаат сосема реалистично и многу наликуваат на влезната слика врз основа на корисничките барања или барања.

Сликата додадена подолу е генерирана од рамката EasyPhoto со користење на шаблон за повеќе лица. Како што може јасно да се види, генерираните слики се јасни, точни и личат на оригиналната слика.

Со помош на EasyPhoto, корисниците сега можат да генерираат широк спектар на портрети со вештачка интелигенција или да генерираат повеќе кориснички идентификатори користејќи зачувани шаблони или да го користат моделот SD за да генерираат шаблони за заклучоци. Сликите додадени погоре ја покажуваат способноста на рамката EasyPhoto за производство на разновидни и висококвалитетни слики со вештачка интелигенција.

Заклучок

Во оваа статија, разговаравме за EasyPhoto, a нов додаток WebUI што им овозможува на крајните корисници да генерираат портрети и слики со вештачка интелигенција. Приклучокот EasyPhoto WebUI генерира портрети со вештачка интелигенција користејќи произволни шаблони, а тековните импликации на EasyPhoto WebUI поддржуваат различни стилови на фотографии и повеќе модификации. Дополнително, за дополнително подобрување на можностите на EasyPhoto, корисниците имаат флексибилност да генерираат слики користејќи го моделот SDXL за да генерираат позадоволителни, прецизни и разновидни слики. Рамката EasyPhoto користи стабилен дифузен основен модел заедно со претходно обучен LoRA модел кој произведува висококвалитетни излези на слика.

Дали сте заинтересирани за генератори на слики? Ние исто така обезбедуваме листа на Најдобри генератори на ВИ Headshot и Најдобри генератори на слики со вештачка интелигенција кои се лесни за употреба и не бараат техничка експертиза.

Поврзани теми:лесна фотографија

Следно

10 најдобри генератори на е-пошта со вештачка интелигенција (ноември 2023 година)

Не ја пропуштајте

Стратешка експанзија на Google во вештачката интелигенција: облог од 2 милијарди долари на Anthropic

Кунал Кејривал

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.

Обединете се.AI

EasyPhoto: Вашиот личен генератор на фотографии со вештачка интелигенција

Вештачка интелигенција

EasyPhoto: Вашиот личен генератор на фотографии со вештачка интелигенција

Содржина

Вовед во EasyPhoto и стабилна дифузија

EasyPhoto: Архитектура и обука