potongan EasyPhoto: Generator Foto AI Pribadi Anda - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

EasyPhoto: Generator Foto AI Pribadi Anda

mm
Updated on
EasyPhoto: Generator Potret AI Pribadi Anda

Difusi Stabil Antarmuka Pengguna Web, atau SD-WebUI, adalah proyek komprehensif untuk model Difusi Stabil yang memanfaatkan perpustakaan Gradio untuk menyediakan antarmuka browser. Hari ini, kita akan membahas tentang EasyPhoto, sebuah plugin WebUI inovatif yang memungkinkan pengguna akhir menghasilkan potret dan gambar AI. Plugin EasyPhoto WebUI membuat potret AI menggunakan berbagai templat, mendukung gaya foto berbeda dan banyak modifikasi. Selain itu, untuk lebih meningkatkan kemampuan EasyPhoto, pengguna dapat menghasilkan gambar menggunakan model SDXL untuk hasil yang lebih memuaskan, akurat, dan beragam. Mari kita mulai.

Pengantar EasyPhoto dan Difusi Stabil

Kerangka Difusi Stabil adalah kerangka kerja generasi berbasis difusi yang populer dan kuat yang digunakan oleh pengembang untuk menghasilkan gambar realistis berdasarkan deskripsi teks masukan. Berkat kemampuannya, kerangka Difusi Stabil menawarkan beragam aplikasi, termasuk pengecatan gambar, pengecatan gambar, dan terjemahan gambar-ke-gambar. Stable Diffusion Web UI, atau SD-WebUI, menonjol sebagai salah satu aplikasi paling populer dan terkenal dari kerangka kerja ini. Ini menampilkan antarmuka browser yang dibangun di perpustakaan Gradio, menyediakan antarmuka interaktif dan ramah pengguna untuk model Difusi Stabil. Untuk lebih meningkatkan kontrol dan kegunaan dalam pembuatan gambar, SD-WebUI mengintegrasikan berbagai aplikasi Difusi Stabil.

Karena kemudahan yang ditawarkan oleh kerangka SD-WebUI, pengembang kerangka EasyPhoto memutuskan untuk membuatnya sebagai plugin web daripada aplikasi lengkap. Berbeda dengan metode yang sudah ada yang sering kali mengalami kehilangan identitas atau memasukkan fitur yang tidak realistis ke dalam gambar, kerangka kerja EasyPhoto memanfaatkan kemampuan gambar-ke-gambar dari model Difusi Stabil untuk menghasilkan gambar yang akurat dan realistis. Pengguna dapat dengan mudah menginstal kerangka EasyPhoto sebagai ekstensi dalam WebUI, meningkatkan kemudahan penggunaan dan aksesibilitas ke lebih banyak pengguna. Kerangka kerja EasyPhoto memungkinkan pengguna untuk menghasilkan identitas yang dipandu, berkualitas tinggi, dan potret AI yang realistis yang sangat mirip dengan identitas masukan.

Pertama, kerangka EasyPhoto meminta pengguna untuk membuat doppelganger digital mereka dengan mengunggah beberapa gambar untuk melatih model wajah LoRA atau Adaptasi Tingkat Rendah secara online. Kerangka kerja LoRA dengan cepat menyempurnakan model difusi dengan memanfaatkan teknologi adaptasi tingkat rendah. Proses ini memungkinkan model berbasis untuk memahami informasi ID pengguna tertentu. Model yang dilatih kemudian digabungkan & diintegrasikan ke dalam model Difusi Stabil dasar untuk interferensi. Selanjutnya, selama proses interferensi, model menggunakan model difusi stabil dalam upaya mengecat ulang daerah wajah dalam templat interferensi, dan kemiripan antara gambar masukan dan keluaran diverifikasi menggunakan berbagai unit ControlNet. 

Kerangka kerja EasyPhoto juga menerapkan proses difusi dua tahap untuk mengatasi potensi masalah seperti artefak batas & hilangnya identitas, sehingga memastikan bahwa gambar yang dihasilkan meminimalkan inkonsistensi visual sambil mempertahankan identitas pengguna. Lebih jauh lagi, jalur interferensi dalam kerangka EasyPhoto tidak hanya terbatas pada menghasilkan potret, tetapi juga dapat digunakan untuk menghasilkan apa pun yang berhubungan dengan ID pengguna. Ini menyiratkan bahwa setelah Anda melatih model LoRA untuk ID tertentu, Anda dapat menghasilkan beragam gambar AI, sehingga dapat diterapkan secara luas termasuk uji coba virtual. 

Ringkasnya, kerangka EasyPhoto

  1. Mengusulkan pendekatan baru untuk melatih model LoRA dengan menggabungkan beberapa model LoRA untuk menjaga fidelitas wajah dari gambar yang dihasilkan. 
  2. Memanfaatkan berbagai metode pembelajaran penguatan untuk mengoptimalkan model LoRA untuk penghargaan identitas wajah yang selanjutnya membantu meningkatkan kesamaan identitas antara gambar pelatihan, dan hasil yang dihasilkan. 
  3. Mengusulkan proses difusi berbasis inpaint dua tahap yang bertujuan untuk menghasilkan foto AI dengan estetika dan kemiripan yang tinggi. 

EasyPhoto: Arsitektur & Pelatihan

Gambar berikut menunjukkan proses pelatihan kerangka EasyPhoto AI. 

Seperti yang dapat dilihat, kerangka kerja tersebut pertama-tama meminta pengguna untuk memasukkan gambar pelatihan, dan kemudian melakukan deteksi wajah untuk mendeteksi lokasi wajah. Setelah kerangka kerja mendeteksi wajah, kerangka kerja akan memotong gambar masukan menggunakan rasio spesifik yang telah ditentukan sebelumnya dan hanya berfokus pada wilayah wajah. Kerangka kerja ini kemudian menerapkan model kecantikan kulit & deteksi arti-penting untuk mendapatkan gambar pelatihan wajah yang bersih & jernih. Kedua model ini memainkan peran penting dalam meningkatkan kualitas visual wajah, dan juga memastikan bahwa informasi latar belakang telah dihapus, dan gambar pelatihan sebagian besar berisi wajah. Terakhir, kerangka kerja ini menggunakan gambar yang diproses dan petunjuk masukan untuk melatih model LoRA, dan dengan demikian membekalinya dengan kemampuan untuk memahami karakteristik wajah spesifik pengguna dengan lebih efektif & akurat. 

Selain itu, selama fase pelatihan, kerangka kerja ini mencakup langkah validasi penting, di mana kerangka kerja menghitung kesenjangan ID wajah antara gambar masukan pengguna, dan gambar verifikasi yang dihasilkan oleh model LoRA yang dilatih. Langkah validasi adalah proses mendasar yang memainkan peran penting dalam mencapai perpaduan model LoRA, yang pada akhirnya memastikan bahwa kerangka kerja LoRA yang terlatih berubah menjadi doppelganger, atau representasi digital akurat dari pengguna. Selain itu, gambar verifikasi yang memiliki skor face_id optimal akan dipilih sebagai gambar face_id, dan gambar face_id ini kemudian akan digunakan untuk meningkatkan kesamaan identitas dari pembangkitan interferensi. 

Selanjutnya, berdasarkan proses ansambel, kerangka kerja ini melatih model LoRA dengan estimasi kemungkinan sebagai tujuan utamanya, sedangkan menjaga kesamaan identitas wajah adalah tujuan hilirnya. Untuk mengatasi masalah ini, kerangka kerja EasyPhoto menggunakan teknik pembelajaran penguatan untuk mengoptimalkan tujuan hilir secara langsung. Hasilnya, fitur wajah yang dipelajari model LoRA menampilkan peningkatan yang mengarah pada peningkatan kesamaan antara hasil yang dihasilkan template, dan juga menunjukkan generalisasi di seluruh template. 

Proses Interferensi

Gambar berikut menunjukkan proses interferensi untuk ID Pengguna individu dalam kerangka EasyPhoto, dan dibagi menjadi tiga bagian

  • Praproses Wajah untuk mendapatkan referensi ControlNet, dan gambar masukan yang telah diproses sebelumnya. 
  • Difusi Pertama yang membantu menghasilkan hasil kasar yang menyerupai masukan pengguna. 
  • Difusi Kedua yang memperbaiki artefak batas, sehingga membuat gambar lebih akurat, dan tampak lebih realistis. 

Sebagai masukan, framework mengambil gambar face_id (dihasilkan selama validasi pelatihan menggunakan skor face_id optimal), dan template interferensi. Outputnya adalah potret pengguna yang sangat detail, akurat, dan realistis, serta sangat mirip dengan identitas & penampilan unik pengguna berdasarkan templat kesimpulan. Mari kita lihat secara mendetail proses-proses ini.

Hadapi Pra-Proses

Salah satu cara untuk menghasilkan potret AI berdasarkan templat interferensi tanpa alasan yang disengaja adalah dengan menggunakan model SD untuk mengecat bagian wajah dalam templat interferensi. Selain itu, menambahkan kerangka ControlNet ke proses tidak hanya meningkatkan pelestarian identitas pengguna, namun juga meningkatkan kesamaan antara gambar yang dihasilkan. Namun, menggunakan ControlNet secara langsung untuk pengecatan regional dapat menimbulkan potensi masalah

  • Ketidakkonsistenan antara Input dan Gambar yang Dihasilkan : Jelas bahwa poin-poin penting dalam gambar templat tidak kompatibel dengan poin-poin penting dalam gambar face_id, itulah sebabnya menggunakan ControlNet dengan gambar face_id sebagai referensi dapat menyebabkan beberapa ketidakkonsistenan pada keluaran. 
  • Cacat pada Wilayah Inpaint : Menutupi suatu wilayah, lalu mengecatnya dengan wajah baru dapat menyebabkan cacat yang terlihat, terutama di sepanjang batas cat yang tidak hanya akan berdampak pada keaslian gambar yang dihasilkan, namun juga akan berdampak negatif pada realisme gambar. 
  • Kehilangan Identitas Berdasarkan Jaringan Pengendalian : Karena proses pelatihan tidak menggunakan kerangka ControlNet, penggunaan ControlNet selama fase interferensi mungkin memengaruhi kemampuan model LoRA yang dilatih untuk mempertahankan identitas id pengguna masukan. 

Untuk mengatasi masalah yang disebutkan di atas, kerangka EasyPhoto mengusulkan tiga prosedur. 

  • Sejajarkan dan Tempel: Dengan menggunakan algoritma face-paste, framework EasyPhoto bertujuan untuk mengatasi masalah ketidaksesuaian antara landmark wajah antara face id dan template. Pertama, model menghitung landmark wajah dari face_id dan gambar template, selanjutnya model menentukan matriks transformasi affine yang akan digunakan untuk menyelaraskan landmark wajah dari gambar template dengan gambar face_id. Gambar yang dihasilkan mempertahankan landmark yang sama dengan gambar face_id, dan juga sejajar dengan gambar template. 
  • Sekering Wajah : Face Fuse adalah pendekatan baru yang digunakan untuk memperbaiki artefak batas akibat pengecatan topeng, dan ini melibatkan perbaikan artefak menggunakan kerangka ControlNet. Metode ini memungkinkan kerangka EasyPhoto untuk memastikan pelestarian tepian yang harmonis, dan pada akhirnya memandu proses pembuatan gambar. Algoritme fusi wajah selanjutnya memadukan gambar roop (gambar pengguna kebenaran dasar) & templat, yang memungkinkan gambar fusi yang dihasilkan menunjukkan stabilisasi batas tepi yang lebih baik, yang kemudian menghasilkan keluaran yang ditingkatkan selama tahap difusi pertama. 
  • Validasi terpandu ControlNet: Karena model LoRA tidak dilatih menggunakan kerangka ControlNet, penggunaannya selama proses inferensi mungkin memengaruhi kemampuan model LoRA dalam mempertahankan identitas. Untuk meningkatkan kemampuan generalisasi EasyPhoto, kerangka kerja ini mempertimbangkan pengaruh kerangka ControlNet, dan menggabungkan model LoRA dari berbagai tahapan. 

Difusi Pertama

Tahap difusi pertama menggunakan gambar template untuk menghasilkan gambar dengan id unik yang menyerupai id pengguna masukan. Gambar masukan merupakan perpaduan antara gambar masukan pengguna dan gambar templat, sedangkan masker wajah yang dikalibrasi merupakan masker masukan. Untuk lebih meningkatkan kontrol atas pembuatan gambar, kerangka EasyPhoto mengintegrasikan tiga unit ControlNet di mana unit ControlNet pertama berfokus pada kontrol gambar yang menyatu, unit ControlNet kedua mengontrol warna gambar yang menyatu, dan unit ControlNet terakhir adalah openpose (kontrol pose manusia multi-orang secara real-time) dari gambar yang diganti yang tidak hanya berisi struktur wajah dari gambar templat, tetapi juga identitas wajah pengguna.

Difusi Kedua

Pada tahap difusi kedua, artefak di dekat batas wajah diperhalus dan disesuaikan serta memberikan fleksibilitas kepada pengguna untuk menutupi wilayah tertentu dalam gambar dalam upaya meningkatkan efektivitas pembangkitan dalam area khusus tersebut. Pada tahap ini, framework menggabungkan gambar keluaran yang diperoleh dari tahap difusi pertama dengan gambar roop atau gambar hasil pengguna, sehingga menghasilkan gambar masukan untuk tahap difusi kedua. Secara keseluruhan, tahap difusi kedua memainkan peran penting dalam meningkatkan kualitas keseluruhan dan detail gambar yang dihasilkan. 

ID Multi Pengguna

Salah satu keunggulan EasyPhoto adalah dukungannya untuk menghasilkan banyak ID pengguna, dan gambar di bawah menunjukkan alur proses interferensi untuk multi-ID pengguna dalam kerangka EasyPhoto. 

Untuk memberikan dukungan bagi pembuatan ID multi-pengguna, kerangka kerja EasyPhoto pertama-tama melakukan deteksi wajah pada templat interferensi. Templat interferensi ini kemudian dipecah menjadi beberapa masker, di mana setiap masker hanya berisi satu wajah, dan sisa gambar ditutupi dengan warna putih, sehingga memecah pembuatan ID multi-pengguna menjadi tugas sederhana untuk menghasilkan ID pengguna individual. Setelah kerangka kerja menghasilkan gambar ID pengguna, gambar-gambar ini digabungkan ke dalam template inferensi, sehingga memfasilitasi integrasi gambar template dengan gambar yang dihasilkan, yang pada akhirnya menghasilkan gambar berkualitas tinggi. 

Eksperimen dan Hasil

Sekarang kita sudah memahami framework EasyPhoto, sekarang saatnya kita mengeksplorasi kinerja framework EasyPhoto. 

Gambar di atas dihasilkan oleh plugin EasyPhoto, dan menggunakan model SD berbasis Style untuk pembuatan gambar. Seperti yang dapat diamati, gambar yang dihasilkan terlihat realistis dan cukup akurat. 

Gambar yang ditambahkan di atas dihasilkan oleh kerangka EasyPhoto menggunakan model SD berbasis Gaya Komik. Seperti yang dapat dilihat, foto komik dan foto realistis terlihat cukup realistis, dan sangat mirip dengan gambar masukan berdasarkan permintaan atau persyaratan pengguna. 

Gambar yang ditambahkan di bawah ini dihasilkan oleh kerangka EasyPhoto dengan menggunakan template Multi-Orang. Terlihat jelas bahwa gambar yang dihasilkan jelas, akurat, dan menyerupai gambar aslinya. 

Dengan bantuan EasyPhoto, pengguna kini dapat menghasilkan beragam potret AI, atau menghasilkan beberapa ID pengguna menggunakan templat yang disimpan, atau menggunakan model SD untuk menghasilkan templat inferensi. Gambar yang ditambahkan di atas menunjukkan kemampuan kerangka EasyPhoto dalam menghasilkan gambar AI yang beragam dan berkualitas tinggi.

Kesimpulan

Pada artikel ini, kita telah membahas tentang EasyPhoto, a plugin WebUI baru yang memungkinkan pengguna akhir menghasilkan potret & gambar AI. Plugin EasyPhoto WebUI menghasilkan potret AI menggunakan templat sewenang-wenang, dan implikasi EasyPhoto WebUI saat ini mendukung gaya foto yang berbeda, dan banyak modifikasi. Selain itu, untuk lebih meningkatkan kemampuan EasyPhoto, pengguna memiliki fleksibilitas untuk menghasilkan gambar menggunakan model SDXL untuk menghasilkan gambar yang lebih memuaskan, akurat, dan beragam. Kerangka kerja EasyPhoto menggunakan model dasar difusi yang stabil ditambah dengan model LoRA terlatih yang menghasilkan keluaran gambar berkualitas tinggi.

Tertarik dengan generator gambar? Kami juga menyediakan daftarnya Generator Headshot AI Terbaik dan Generator Gambar AI Terbaik yang mudah digunakan dan tidak memerlukan keahlian teknis.

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.