Rekayasa Cepat

Melihat Lebih Dekat DALL-E 3 OpenAI

Diterbitkan

1 hari lalu

Oktober 31, 2023

Dalam majalah AI generatif dunia, mengikuti perkembangan terkini adalah nama permainannya. Dan ketika menghasilkan gambar, Difusi Stabil dan tengah perjalanan adalah platform yang dibicarakan semua orang – sampai sekarang.

OpenAI, yang didukung oleh raksasa teknologi Microsoft, diperkenalkan DALL E 3 pada 20th September, 2023.

DALL-E 3 bukan hanya tentang membuat gambar; ini tentang mewujudkan ide-ide Anda, persis seperti yang Anda bayangkan. Dan bagian terbaiknya? Ini cepat, sepertinya, sangat cepat. Anda punya ide, Anda memasukkannya ke DALL-E 3, dan boom, gambar Anda sudah siap.

Jadi, dalam artikel ini, kita akan mendalami lebih dalam tentang DALL-E 3. Kita akan membicarakan cara kerjanya, apa yang membedakannya dari yang lain, dan mengapa alat ini mungkin hanya merupakan alat yang Anda tidak tahu bahwa Anda membutuhkannya. Baik Anda seorang desainer, seniman, atau sekadar seseorang yang memiliki banyak ide keren, Anda pasti ingin terus melakukannya. Mari kita mulai.

Apa yang baru dari DALL·E 3 adalah konteksnya jauh lebih baik daripada DALL·E 2. Versi sebelumnya mungkin melewatkan beberapa hal spesifik atau mengabaikan beberapa detail di sana-sini, namun DALL·E 3 tepat sasaran. Ini menangkap detail persis dari apa yang Anda minta, memberi Anda gambaran yang mendekati apa yang Anda bayangkan.

Bagian yang keren? DALL·E 3 dan ChatGPT kini terintegrasi bersama. Mereka bekerja sama untuk membantu menyempurnakan ide Anda. Anda memotret sebuah konsep, ChatGPT membantu menyempurnakan perintahnya, dan DALL·E 3 menghidupkannya. Jika Anda bukan penggemar gambar tersebut, Anda dapat meminta ChatGPT untuk mengubah perintahnya dan meminta DALL·E 3 untuk mencoba lagi. Dengan biaya bulanan sebesar $20, Anda mendapatkan akses ke GPT-4, DALL·E 3, dan banyak fitur keren lainnya.

Microsoft Obrolan Bing telah mendapatkan DALL·E 3 bahkan sebelum ChatGPT OpenAI melakukannya, dan kini bukan hanya perusahaan besar saja yang bisa menggunakannya secara gratis. Integrasi ke dalam Bing Chat dan Bing Image Creator membuatnya lebih mudah digunakan oleh siapa saja.

Bangkitnya Model Difusi

Dalam 3 tahun terakhir, vision AI telah menyaksikan kebangkitan model difusi, yang mengalami lompatan maju yang signifikan, terutama dalam pembuatan gambar. Sebelum model difusi, Jaringan Permusuhan Generatif (GAN) adalah teknologi andalan untuk menghasilkan gambar realistis.

GAN

Namun, mereka juga mempunyai tantangan yang sama, termasuk kebutuhan akan data dalam jumlah besar dan kekuatan komputasi, yang seringkali membuat mereka sulit untuk ditangani.

Enter difusi model. Mereka muncul sebagai alternatif GAN yang lebih stabil dan efisien. Tidak seperti GAN, model difusi beroperasi dengan menambahkan noise ke data, mengaburkannya hingga yang tersisa hanyalah keacakan. Mereka kemudian bekerja mundur untuk membalikkan proses ini, merekonstruksi data yang bermakna dari kebisingan. Proses ini terbukti efektif dan tidak memerlukan banyak sumber daya, sehingga menjadikan model difusi sebagai topik hangat dalam komunitas AI.

Titik balik sebenarnya terjadi sekitar tahun 2020, dengan serangkaian makalah inovatif dan pengenalan KLIP OpenAI teknologi, yang secara signifikan meningkatkan kemampuan model difusi. Hal ini membuat model difusi menjadi sangat baik dalam sintesis teks-ke-gambar, sehingga memungkinkan model tersebut menghasilkan gambar realistis dari deskripsi tekstual. Terobosan ini tidak hanya terjadi di bidang pencitraan, namun juga di bidang-bidang sejenisnya komposisi musik dan penelitian biomedis.

Saat ini, model difusi bukan hanya sekedar topik akademis namun juga digunakan dalam skenario praktis dan dunia nyata.

Pemodelan Generatif dan Lapisan Perhatian Diri: DALL-E 3

sumber

Salah satu kemajuan penting dalam bidang ini adalah evolusi pemodelan generatif, dengan pendekatan berbasis pengambilan sampel seperti pemodelan generatif autoregresif dan proses difusi sebagai yang terdepan. Mereka telah mengubah model teks-ke-gambar, sehingga menghasilkan peningkatan kinerja yang drastis. Dengan memecah pembuatan gambar menjadi beberapa langkah terpisah, model ini menjadi lebih mudah diatur dan dipelajari oleh jaringan saraf.

Secara paralel, penggunaan lapisan perhatian diri juga memainkan peran penting. Lapisan-lapisan ini, jika digabungkan, telah membantu menghasilkan gambar tanpa memerlukan bias spasial implisit, yang merupakan masalah umum pada konvolusi. Pergeseran ini memungkinkan model teks-ke-gambar untuk diskalakan dan ditingkatkan secara andal, karena sifat penskalaan transformator yang dipahami dengan baik.

Tantangan dan Solusi dalam Image Generation

Terlepas dari kemajuan ini, pengendalian dalam menghasilkan gambar masih menjadi tantangan. Permasalahan seperti tindak lanjut yang cepat, dimana model mungkin tidak sesuai dengan teks masukan, telah banyak terjadi. Untuk mengatasi hal ini, pendekatan baru seperti perbaikan teks telah diusulkan, yang bertujuan untuk meningkatkan kualitas pasangan teks dan gambar dalam kumpulan data pelatihan.

Peningkatan Teks: Pendekatan Baru

Peningkatan teks melibatkan pembuatan teks dengan kualitas lebih baik untuk gambar, yang pada gilirannya membantu dalam melatih model teks-ke-gambar yang lebih akurat. Hal ini dicapai melalui pembuat teks gambar tangguh yang menghasilkan deskripsi gambar secara detail dan akurat. Dengan melatih teks yang ditingkatkan ini, DALL-E 3 telah mampu mencapai hasil yang luar biasa, sangat mirip dengan foto dan karya seni yang dihasilkan oleh manusia.

Pelatihan di Data Sintetis

Konsep pelatihan data sintetik bukanlah hal baru. Namun, kontribusi uniknya di sini adalah penciptaan sistem teks gambar deskriptif yang baru. Dampak penggunaan teks sintetis untuk melatih model generatif sangat besar, sehingga menghasilkan peningkatan pada kemampuan model untuk mengikuti perintah secara akurat.

Mengevaluasi DALL-E 3

Melalui berbagai evaluasi dan perbandingan dengan model sebelumnya seperti DALL-E 2 dan Stable Diffusion XL, DALL-E 3 telah menunjukkan kinerja yang unggul, terutama dalam tugas-tugas yang berkaitan dengan tindak lanjut yang cepat.

Perbandingan model teks-ke-gambar pada berbagai evaluasi

Penggunaan evaluasi dan tolok ukur otomatis telah memberikan bukti jelas akan kemampuannya, memperkuat posisinya sebagai pembuat teks-ke-gambar yang canggih.

DALL-E 3 Anjuran dan Kemampuan

DALL-E 3 menawarkan pendekatan yang lebih logis dan halus dalam menciptakan visual. Saat Anda menelusurinya, Anda akan melihat bagaimana DALL-E membuat setiap gambar, dengan perpaduan akurasi dan imajinasi yang sesuai dengan perintah yang diberikan.

Berbeda dengan pendahulunya, versi yang ditingkatkan ini unggul dalam mengatur objek secara alami dalam sebuah adegan dan menggambarkan fitur manusia secara akurat, hingga jumlah jari yang tepat di tangan. Penyempurnaan ini mencakup detail yang lebih halus dan kini tersedia pada resolusi yang lebih tinggi, memastikan hasil yang lebih realistis dan profesional.

Kemampuan rendering teks juga mengalami peningkatan substansial. Jika DALL-E versi sebelumnya menghasilkan teks yang tidak jelas, DALL-E 3 kini dapat menghasilkan tulisan yang terbaca dan bergaya profesional (terkadang), dan bahkan logo yang bersih pada saat tertentu.

Pemahaman model terhadap permintaan gambar yang kompleks dan bernuansa telah ditingkatkan secara signifikan. DALL-E 3 kini dapat mengikuti deskripsi mendetail secara akurat, bahkan dalam skenario dengan banyak elemen dan instruksi spesifik, menunjukkan kemampuannya untuk menghasilkan gambar yang koheren dan tersusun dengan baik. Mari kita jelajahi beberapa petunjuk dan keluaran yang kita dapatkan:

Design the packaging for a line of organic teas. Include space for the product name and description.

Gambar DALL-E 3 berdasarkan petunjuk teks

DALL-E 3 gambar berdasarkan petunjuk teks (Perhatikan bahwa poster kiri memiliki ejaan yang salah)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

Gambar DALL-E 3 berdasarkan petunjuk teks

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 gambar berdasarkan petunjuk teks (Perhatikan bahwa kedua poster memiliki ejaan yang salah)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

Gambar DALL-E 3 berdasarkan petunjuk teks

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

Gambar DALL-E 3 berdasarkan petunjuk teks

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

Gambar DALL-E 3 berdasarkan petunjuk teks

Keterbatasan & Risiko DALL-E 3

OpenAI telah mengambil langkah signifikan untuk memfilter konten eksplisit dari data pelatihan DALL-E 3, yang bertujuan untuk mengurangi bias dan meningkatkan keluaran model. Hal ini mencakup penerapan filter khusus untuk kategori konten sensitif dan revisi ambang batas untuk filter yang lebih luas. Tumpukan mitigasi juga mencakup beberapa lapisan perlindungan, seperti mekanisme penolakan di ChatGPT untuk topik sensitif, pengklasifikasi masukan cepat untuk mencegah pelanggaran kebijakan, daftar blokir untuk kategori konten tertentu, dan transformasi untuk memastikan permintaan selaras dengan pedoman.

Terlepas dari kemajuannya, DALL-E 3 memiliki keterbatasan dalam memahami hubungan spasial, menampilkan teks panjang secara akurat, dan menghasilkan citra tertentu. OpenAI menyadari tantangan ini dan berupaya melakukan perbaikan untuk versi mendatang.

Perusahaan ini juga berupaya untuk membedakan gambar yang dihasilkan AI dari gambar yang dibuat oleh manusia, yang mencerminkan komitmen mereka terhadap transparansi dan penggunaan AI yang bertanggung jawab.

DALL E 3

DALL-E 3, versi terbaru, akan tersedia secara bertahap dimulai dengan kelompok pelanggan tertentu dan kemudian diperluas ke laboratorium penelitian dan layanan API. Namun, tanggal rilis publik gratisnya belum dikonfirmasi.

OpenAI benar-benar menetapkan standar baru di bidang AI dengan DALL-E 3, yang secara mulus menjembatani kemampuan teknis yang kompleks dan antarmuka yang ramah pengguna. Integrasi DALL-E 3 ke dalam platform yang banyak digunakan seperti Bing mencerminkan peralihan dari aplikasi khusus ke bentuk hiburan dan utilitas yang lebih luas dan mudah diakses.

Perubahan nyata di tahun-tahun mendatang kemungkinan besar adalah keseimbangan antara inovasi dan pemberdayaan pengguna. Perusahaan yang berkembang adalah perusahaan yang tidak hanya mampu melampaui batas kemampuan AI, namun juga memberikan otonomi dan kendali yang diinginkan pengguna. OpenAI, dengan komitmennya terhadap AI yang beretika, menavigasi jalur ini dengan hati-hati. Tujuannya jelas: untuk menciptakan alat AI yang tidak hanya kuat, namun juga dapat dipercaya dan inklusif, memastikan bahwa manfaat AI dapat diakses oleh semua orang.

Jangan Miss

Peretasan Cepat dan Penyalahgunaan LLM

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.

Bersatu.AI

Melihat Lebih Dekat DALL-E 3 OpenAI

Rekayasa Cepat

Melihat Lebih Dekat DALL-E 3 OpenAI

Daftar Isi

Bangkitnya Model Difusi

Pemodelan Generatif dan Lapisan Perhatian Diri: DALL-E 3

Tantangan dan Solusi dalam Image Generation

Peningkatan Teks: Pendekatan Baru

Pelatihan di Data Sintetis

Mengevaluasi DALL-E 3

DALL-E 3 Anjuran dan Kemampuan

Keterbatasan & Risiko DALL-E 3

Tulisan Terbaru

Bersatu.AI

Melihat Lebih Dekat DALL-E 3 OpenAI

Daftar Isi

Bangkitnya Model Difusi

Pemodelan Generatif dan Lapisan Perhatian Diri: DALL-E 3

Tantangan dan Solusi dalam Image Generation

Peningkatan Teks: Pendekatan Baru

Pelatihan di Data Sintetis

Mengevaluasi DALL-E 3

DALL-E 3 Anjuran dan Kemampuan

Keterbatasan & Risiko DALL-E 3

Kamu mungkin suka

Tulisan Terbaru