stub EasyPhoto: Il-Ġeneratur Personali tar-Ritratti AI tiegħek - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

EasyPhoto: Il-Ġeneratur Personali tar-Ritratti AI tiegħek

mm
Aġġornata on
EasyPhoto : Il-Ġeneratur Personali tiegħek tar-Ritratt AI

Diffużjoni Stabbli Web User Interface, jew SD-WebUI, huwa proġett komprensiv għal mudelli ta 'Diffużjoni Stabbli li juża l-librerija Gradio biex jipprovdi interface tal-browser. Illum, se nitkellmu dwar EasyPhoto, plugin WebUI innovattiv li jippermetti lill-utenti finali jiġġeneraw ritratti u stampi AI. Il-plugin EasyPhoto WebUI joħloq ritratti AI bl-użu ta 'mudelli varji, li jappoġġaw stili ta' ritratti differenti u modifiki multipli. Barra minn hekk, biex itejbu aktar il-kapaċitajiet ta 'EasyPhoto, l-utenti jistgħu jiġġeneraw immaġini bl-użu tal-mudell SDXL għal riżultati aktar sodisfaċenti, preċiżi u diversi. Ejja nibdew.

Introduzzjoni għall-EasyPhoto u t-tixrid stabbli

Il-qafas tad-Diffużjoni Stabbli huwa qafas ta 'ġenerazzjoni popolari u robust ibbażat fuq id-diffużjoni użat mill-iżviluppaturi biex jiġġeneraw immaġini realistiċi bbażati fuq deskrizzjonijiet tat-test tal-input. Grazzi għall-kapaċitajiet tiegħu, il-qafas tad-Diffużjoni Stabbli jiftaħar firxa wiesgħa ta 'applikazzjonijiet, inklużi l-outpainting ta' l-immaġni, l-inpainting ta 'l-immaġni, u t-traduzzjoni minn immaġini għal immaġni. Is-Stable Diffusion Web UI, jew SD-WebUI, tispikka bħala waħda mill-applikazzjonijiet l-aktar popolari u magħrufa ta 'dan il-qafas. Fiha interface tal-brawżer mibnija fuq il-librerija Gradio, li tipprovdi interface interattiv u faċli għall-utent għal mudelli ta’ Diffużjoni Stabbli. Biex tkompli ttejjeb il-kontroll u l-użabilità fil-ġenerazzjoni ta 'l-immaġini, SD-WebUI tintegra bosta applikazzjonijiet ta' Diffużjoni Stabbli.

Minħabba l-konvenjenza offruta mill-qafas SD-WebUI, l-iżviluppaturi tal-qafas EasyPhoto iddeċidew li joħolquha bħala plugin tal-web aktar milli applikazzjoni sħiħa. B'kuntrast mal-metodi eżistenti li ħafna drabi jbatu minn telf ta 'identità jew jintroduċu karatteristiċi mhux realistiċi fl-immaġini, il-qafas EasyPhoto jisfrutta l-kapaċitajiet ta' immaġini għal immaġni tal-mudelli ta 'Diffużjoni Stabbli biex jipproduċu stampi preċiżi u realistiċi. L-utenti jistgħu faċilment jinstallaw il-qafas EasyPhoto bħala estensjoni fi ħdan il-WebUI, u jsaħħaħ il-faċilità għall-utent u l-aċċessibbiltà għal firxa usa' ta' utenti. Il-qafas EasyPhoto jippermetti lill-utenti biex jiġġeneraw identità gwidata, ta 'kwalità għolja, u ritratti realistiċi AI li jixbħu mill-qrib l-identità tal-input.

L-ewwel, il-qafas EasyPhoto jitlob lill-utenti biex joħolqu d-doppelganger diġitali tagħhom billi jtellgħu ftit immaġini biex iħarrġu mudell LoRA jew Adattament ta 'Rank Baxx tal-wiċċ onlajn. Il-qafas LoRA jirfina malajr il-mudelli tad-diffużjoni billi jagħmel użu minn teknoloġija ta 'adattament ta' livell baxx. Dan il-proċess jippermetti li l-mudell ibbażat jifhem l-informazzjoni tal-ID ta 'utenti speċifiċi. Il-mudelli mħarrġa mbagħad jingħaqdu u jiġu integrati fil-mudell ta' Diffużjoni Stabbli tal-linja bażi għall-interferenza. Barra minn hekk, matul il-proċess ta 'interferenza, il-mudell juża mudelli ta' diffużjoni stabbli f'tentattiv biex jerġa 'jżebgħa r-reġjuni tal-wiċċ fil-mudell ta' interferenza, u x-xebh bejn l-immaġini ta 'l-input u l-output huma vverifikati bl-użu ta' diversi unitajiet ControlNet. 

Il-qafas EasyPhoto juża wkoll proċess ta 'diffużjoni f'żewġ stadji biex jindirizza kwistjonijiet potenzjali bħal artifacts tal-konfini u telf ta' identità, u b'hekk jiżgura li l-immaġini ġġenerati jimminimizzaw l-inkonsistenzi viżwali filwaqt li jżommu l-identità tal-utent. Barra minn hekk, il-pipeline tal-interferenza fil-qafas EasyPhoto mhux biss huwa limitat għall-ġenerazzjoni ta 'ritratti, iżda jista' jintuża wkoll biex jiġġenera xi ħaġa li hija relatata mal-ID tal-utent. Dan jimplika li ladarba inti tħarreġ il Mudell LoRA għal ID partikolari, tista 'tiġġenera firxa wiesgħa ta' stampi AI, u għalhekk jista 'jkollha applikazzjonijiet mifruxa inklużi try-ons virtwali. 

Fil-qosor, il-qafas EasyPhoto

  1. Jipproponi approċċ ġdid biex jitħarreġ il-mudell LoRA billi jinkorpora mudelli multipli LoRA biex tinżamm il-fedeltà tal-wiċċ tal-immaġini ġġenerati. 
  2. Jagħmel użu minn diversi metodi ta’ tagħlim ta’ rinfurzar biex jottimizza l-mudelli LoRA għal premjijiet tal-identità tal-wiċċ li jkompli jgħin fit-titjib tax-xebh tal-identitajiet bejn l-immaġini tat-taħriġ, u r-riżultati ġġenerati. 
  3. Jipproponi proċess ta 'diffużjoni bbażat fuq inpaint f'żewġ stadji li jimmira li jiġġenera ritratti AI b'estetika għolja, u xebh. 

EasyPhoto : Arkitettura u Taħriġ

Il-figura li ġejja turi l-proċess ta 'taħriġ tal-qafas EasyPhoto AI. 

Kif jidher, il-qafas l-ewwel jitlob lill-utenti biex idaħħlu l-immaġini tat-taħriġ, u mbagħad iwettaq sejbien tal-wiċċ biex jiskopru l-postijiet tal-wiċċ. Ladarba l-qafas jiskopri l-wiċċ, huwa uċuħ l-immaġni tal-input billi juża proporzjon speċifiku predefinit li jiffoka biss fuq ir-reġjun tal-wiċċ. Il-qafas imbagħad juża tisbiħ tal-ġilda u mudell ta 'skoperta ta' saliency biex jikseb immaġni ta 'taħriġ tal-wiċċ nadif u ċar. Dawn iż-żewġ mudelli għandhom rwol kruċjali fit-titjib tal-kwalità viżwali tal-wiċċ, u jiżguraw ukoll li l-informazzjoni tal-isfond tneħħiet, u l-immaġni tat-taħriġ fiha prinċipalment il-wiċċ. Fl-aħħarnett, il-qafas juża dawn l-immaġini pproċessati u l-input prompts biex iħarreġ il-mudell LoRA, u b'hekk jgħammarh bil-kapaċità li jifhem il-karatteristiċi tal-wiċċ speċifiċi għall-utent b'mod aktar effettiv u preċiż. 

Barra minn hekk, matul il-fażi ta’ taħriġ, il-qafas jinkludi pass ta’ validazzjoni kritiku, li fih il-qafas jikkalkula d-distakk tal-ID tal-wiċċ bejn l-immaġni tal-input tal-utent, u l-immaġni ta’ verifika li ġiet ġġenerata mill-mudell LoRA mħarreġ. Il-pass tal-validazzjoni huwa proċess fundamentali li għandu rwol ewlieni fil-kisba tal-fużjoni tal-mudelli LoRA, li fl-aħħar mill-aħħar jiżgura li l- qafas LoRA imħarreġ tittrasforma fi doppelganger, jew rappreżentazzjoni diġitali preċiża tal-utent. Barra minn hekk, l-immaġni ta 'verifika li għandha l-aħjar punteġġ face_id se tintgħażel bħala l-immaġni face_id, u din l-immaġni face_id imbagħad tintuża biex ittejjeb ix-xebh tal-identità tal-ġenerazzjoni tal-interferenza. 

Miexi 'l quddiem, ibbażat fuq il-proċess tal-ensemble, il-qafas iħarreġ il-mudelli LoRA bl-istima tal-probabbiltà tkun l-objettiv primarju, filwaqt li l-preservazzjoni tax-xebh tal-identità tal-wiċċ huwa l-objettiv downstream. Biex tindirizza din il-kwistjoni, il-qafas EasyPhoto jagħmel użu minn tekniki ta 'tagħlim ta' rinfurzar biex jottimizza l-objettiv downstream direttament. Bħala riżultat, il-karatteristiċi tal-wiċċ li l-mudelli LoRA jitgħallmu titjib tal-wiri li jwassal għal xebh imtejjeb bejn ir-riżultati ġġenerati tal-mudelli, u juri wkoll il-ġeneralizzazzjoni bejn il-mudelli. 

Proċess ta' Interferenza

Il-figura li ġejja turi l-proċess ta 'interferenza għal User ID individwali fil-qafas EasyPhoto, u hija maqsuma fi tliet partijiet

  • Preproċess tal-wiċċ għall-kisba tar-referenza ControlNet, u l-immaġni ta 'input ipproċessata minn qabel. 
  • L-Ewwel Diffużjoni li jgħin fil-ġenerazzjoni ta 'riżultati oħxon li jixbħu l-input tal-utent. 
  • It-Tieni Diffużjoni li jiffissa l-artifacts tal-konfini, u b'hekk jagħmlu l-immaġini aktar preċiżi, u jidhru aktar realistiċi. 

Għall-input, il-qafas jieħu immaġni face_id (ġenerata waqt il-validazzjoni tat-taħriġ bl-użu tal-punteġġ ottimali face_id), u mudell ta 'interferenza. L-output huwa ritratt dettaljat ħafna, preċiż u realistiku tal-utent, u jixbaħ mill-qrib l-identità u l-apparenza unika tal-utent fuq il-bażi tal-mudell tal-infer. Ejja nagħtu ħarsa dettaljata lejn dawn il-proċessi.

Face PreProcess

Mod kif tiġġenera ritratt AI bbażat fuq mudell ta 'interferenza mingħajr raġunament konxju huwa li tuża l-mudell SD biex tpinġi r-reġjun tal-wiċċ fil-mudell ta' interferenza. Barra minn hekk, iż-żieda tal-qafas ControlNet mal-proċess mhux biss ittejjeb il-preservazzjoni tal-identità tal-utent, iżda ttejjeb ukoll ix-xebh bejn l-immaġini ġġenerati. Madankollu, l-użu ta' ControlNet direttament għall-inpainting reġjonali jista' jintroduċi kwistjonijiet potenzjali li jistgħu jinkludu

  • Inkonsistenza bejn l-Input u l-Immaġini Ġġenerata: Huwa evidenti li l-punti ewlenin fl-immaġni tal-mudell mhumiex kompatibbli mal-punti ewlenin fl-immaġni face_id u huwa għalhekk li l-użu ta 'ControlNet mal-immaġni face_id bħala referenza jista' jwassal għal xi inkonsistenzi fl-output. 
  • Difetti fir-Reġjun Inpaint: Il-maskra ta 'reġjun, u mbagħad inpainting b'wiċċ ġdid jista' jwassal għal difetti notevoli, speċjalment tul il-konfini inpaint li mhux biss se jkollhom impatt fuq l-awtentiċità tal-immaġni ġġenerata, iżda se jaffettwaw ukoll b'mod negattiv ir-realiżmu tal-immaġni. 
  • Telf ta' Identità minn Kontroll Net: Billi l-proċess ta' taħriġ ma jużax il-qafas ControlNet, l-użu ta' ControlNet matul il-fażi ta' interferenza jista' jaffettwa l-kapaċità tal-mudelli LoRA mħarrġa biex jippreservaw l-identità tal-utent tal-input. 

Biex jiġu indirizzati l-kwistjonijiet imsemmija hawn fuq, il-qafas EasyPhoto jipproponi tliet proċeduri. 

  • Allinja u Pejst: Bl-użu ta' algoritmu ta' tippejst tal-wiċċ, il-qafas EasyPhoto għandu l-għan li jindirizza l-kwistjoni ta' nuqqas ta' qbil bejn il-postijiet familjari tal-wiċċ bejn l-id tal-wiċċ u l-mudell. L-ewwel, il-mudell jikkalkula l-postijiet familjari tal-wiċċ tal-face_id u l-immaġni tal-mudell, u warajhom il-mudell jiddetermina l-matriċi tat-trasformazzjoni affine li se tintuża biex tallinja l-postijiet familjari tal-wiċċ tal-immaġni tal-mudell mal-immaġni tal-face_id. L-immaġni li tirriżulta żżomm l-istess postijiet familjari tal-immaġni face_id, u tallinja wkoll mal-immaġni tal-mudell. 
  • Fjus tal-wiċċ: Face Fuse huwa approċċ ġdid li jintuża biex jikkoreġi l-artifacts tal-konfini li huma riżultat tal-pittura tal-maskra, u jinvolvi r-rettifika tal-artifacts bl-użu tal-qafas ControlNet. Il-metodu jippermetti li l-qafas EasyPhoto jiżgura l-preservazzjoni ta 'truf armonjużi, u b'hekk fl-aħħar mill-aħħar jiggwida l-proċess tal-ġenerazzjoni tal-immaġni. L-algoritmu tal-fużjoni tal-wiċċ ikompli jintegra l-immaġni tal-roop (immaġini tal-utent tal-verità tal-art) u l-mudell, li jippermetti li l-immaġni mdewba li tirriżulta tesibixxi stabilizzazzjoni aħjar tal-konfini tat-tarf, li mbagħad iwassal għal produzzjoni msaħħa matul l-ewwel stadju ta 'diffużjoni. 
  • Validazzjoni ggwidata minn ControlNet: Peress li l-mudelli LoRA ma ġewx imħarrġa bl-użu tal-qafas ControlNet, l-użu tiegħu matul il-proċess ta 'inferenza jista' jaffettwa l-kapaċità tal-mudell LoRA li jippreserva l-identitajiet. Sabiex itejjeb il-kapaċitajiet ta 'ġeneralizzazzjoni ta' EasyPhoto, il-qafas jikkunsidra l-influwenza tal-qafas ControlNet, u jinkorpora mudelli LoRA minn stadji differenti. 

L-Ewwel Diffużjoni

L-ewwel stadju tad-diffużjoni juża l-immaġni tal-mudell biex jiġġenera immaġni b'id unika li tixbaħ l-id tal-utent tal-input. L-immaġni tal-input hija fużjoni tal-immaġni tal-input tal-utent, u l-immaġni tal-mudell, filwaqt li l-maskra tal-wiċċ ikkalibrata hija l-maskra tal-input. Biex ikompli jżid il-kontroll fuq il-ġenerazzjoni tal-immaġni, il-qafas EasyPhoto jintegra tliet unitajiet ControlNet fejn l-ewwel unità ControlNet tiffoka fuq il-kontroll tal-immaġini mdewba, it-tieni unità ControlNet tikkontrolla l-kuluri tal-immaġni mdewba, u l-unità ControlNet finali hija l-openpose (kontroll tal-pożi umani b'ħafna persuni f'ħin reali) tal-immaġni sostitwita li mhux biss fiha l-istruttura tal-wiċċ tal-immaġni tal-mudell, iżda wkoll l-identità tal-wiċċ tal-utent.

It-Tieni Diffużjoni

Fit-tieni stadju ta 'diffużjoni, l-artifacts ħdejn il-konfini tal-wiċċ huma rfinuti u rfinati flimkien ma' jipprovdu lill-utenti bil-flessibilità biex jaħbu reġjun speċifiku fl-immaġini f'tentattiv biex itejbu l-effettività tal-ġenerazzjoni f'dik iż-żona ddedikata. F'dan l-istadju, il-qafas jgħaqqad l-immaġni tal-ħruġ miksuba mill-ewwel stadju tad-diffużjoni mal-immaġni roop jew ir-riżultat tal-immaġni tal-utent, u b'hekk tiġġenera l-immaġni tal-input għat-tieni stadju tad-diffużjoni. B'mod ġenerali, it-tieni stadju tad-diffużjoni għandu rwol kruċjali fit-titjib tal-kwalità ġenerali, u d-dettalji tal-immaġni ġġenerata. 

Multi User IDs

Wieħed mill-punti ewlenin ta 'EasyPhoto huwa l-appoġġ tiegħu għall-ġenerazzjoni ta' IDs ta 'utenti multipli, u l-figura hawn taħt turi l-pipeline tal-proċess ta' interferenza għal IDs ta 'utenti multi fil-qafas EasyPhoto. 

Biex jipprovdi appoġġ għall-ġenerazzjoni ta 'ID multi-utenti, il-qafas EasyPhoto l-ewwel iwettaq skoperta tal-wiċċ fuq il-mudell ta' interferenza. Dawn il-mudelli ta 'interferenza mbagħad jinqasmu f'diversi maskri, fejn kull maskra fiha wiċċ wieħed biss, u l-bqija ta' l-immaġni hija mgħottija bl-abjad, u b'hekk tkisser il-ġenerazzjoni ta 'ID multi-utenti f'kompitu sempliċi ta' ġenerazzjoni ta 'IDs ta' utent individwali. Ladarba l-qafas jiġġenera l-immaġini tal-ID tal-utent, dawn l-immaġini jingħaqdu fil-mudell tal-inferenza, u b'hekk jiffaċilitaw integrazzjoni bla xkiel tal-immaġini tal-mudell mal-immaġini ġġenerati, li finalment tirriżulta f'immaġni ta 'kwalità għolja. 

Esperimenti u Riżultati

Issa li għandna fehim tal-qafas EasyPhoto, wasal iż-żmien li nesploraw il-prestazzjoni tal-qafas EasyPhoto. 

L-immaġni ta 'hawn fuq hija ġġenerata mill-plugin EasyPhoto, u tuża mudell SD ibbażat fuq Stil għall-ġenerazzjoni tal-immaġni. Kif jista 'jiġi osservat, l-immaġini ġenerati jidhru realistiċi, u huma pjuttost preċiżi. 

L-immaġni miżjuda hawn fuq hija ġġenerata mill-qafas EasyPhoto bl-użu ta 'mudell SD ibbażat Stil Comic. Kif jista 'jidher, ir-ritratti komiks, u r-ritratti realistiċi jidhru pjuttost realistiċi, u jixbħu mill-qrib l-immaġni tal-input fuq il-bażi tal-prompt jew ir-rekwiżiti tal-utent. 

L-immaġni miżjuda hawn taħt ġiet iġġenerata mill-qafas EasyPhoto billi għamel l-użu ta 'mudell ta' Multi-Person. Kif jidher b'mod ċar, l-immaġini ġġenerati huma ċari, preċiżi, u jixbħu l-immaġni oriġinali. 

Bl-għajnuna ta 'EasyPhoto, l-utenti issa jistgħu jiġġeneraw firxa wiesgħa ta' ritratti AI, jew jiġġeneraw IDs ta 'utenti multipli bl-użu ta' mudelli ppreservati, jew jużaw il-mudell SD biex jiġġeneraw mudelli ta 'inferenza. L-immaġini miżjuda hawn fuq juru l-kapaċità tal-qafas EasyPhoto fil-produzzjoni ta’ stampi AI diversi u ta’ kwalità għolja.

konklużjoni

F'dan l-artikolu, tkellimna dwar EasyPhoto, a plugin ġdid tal-WebUI li jippermetti lill-utenti finali jiġġeneraw ritratti u stampi AI. Il-plugin EasyPhoto WebUI jiġġenera ritratti AI bl-użu ta 'mudelli arbitrarji, u l-implikazzjonijiet attwali tal-EasyPhoto WebUI jappoġġja stili ta' ritratti differenti, u modifiki multipli. Barra minn hekk, biex itejbu aktar il-kapaċitajiet ta 'EasyPhoto, l-utenti għandhom il-flessibbiltà li jiġġeneraw immaġini bl-użu tal-mudell SDXL biex jiġġeneraw immaġini aktar sodisfaċenti, preċiżi u diversi. Il-qafas EasyPhoto juża mudell ta 'bażi ​​ta' diffużjoni stabbli flimkien ma 'mudell LoRA imħarreġ minn qabel li jipproduċi outputs ta' immaġini ta 'kwalità għolja.

Interessat fil-ġeneraturi tal-immaġni? Aħna nipprovdu wkoll lista tal- L-Aħjar Ġeneraturi Headshot AI u l- L-Aħjar Ġeneraturi tal-Immaġni AI li huma faċli biex jintużaw u ma jeħtieġu l-ebda kompetenza teknika.

“Inġinier b’professjoni, kittieb b’qalbu”. Kunal huwa kittieb tekniku b'imħabba u fehim profondi tal-AI u l-ML, iddedikat biex jissimplifika kunċetti kumplessi f'dawn l-oqsma permezz tad-dokumentazzjoni involviment u informattiva tiegħu.