Hiter inženiring

Podrobnejši pogled na DALL-E 3 OpenAI

objavljeno

1 dan nazaj

Oktober 31, 2023

v Generativna AI svet, biti v koraku z najnovejšim je ime igre. In ko gre za ustvarjanje slik, Stabilna difuzija in vmesna pot bili platforma, o kateri so vsi govorili – do zdaj.

Predstavljen OpenAI, ki ga podpira tehnološki velikan Microsoft DALL E 3 20. septembra 2023.

DALL-E 3 ni le ustvarjanje slik; gre za uresničitev vaših idej, tako kot ste si jih zamislili. In najboljši del? Hitro je, res hitro. Imate idejo, jo vnesete v DALL-E 3 in bum, vaša slika je pripravljena.

Torej, v tem članku se bomo poglobili v to, kaj DALL-E 3 sploh je. Govorili bomo o tem, kako deluje, kaj ga ločuje od ostalih in zakaj je morda le orodje, za katerega niste vedeli, da ga potrebujete. Ne glede na to, ali ste oblikovalec, umetnik ali samo nekdo z veliko kul idejami, boste želeli ostati pri tem. Začnimo.

Novo pri DALL·E 3 je, da dobi kontekst veliko bolje kot DALL·E 2. Prejšnje različice so morda izpustile nekatere podrobnosti ali prezrle nekaj podrobnosti tu in tam, vendar je DALL·E 3 na mestu. Zazna natančne podrobnosti tega, kar zahtevate, in vam ponudi sliko, ki je bližje temu, kar ste si predstavljali.

Kul del? DALL·E 3 in ChatGPT zdaj integrirani skupaj. Sodelujejo pri izboljšanju vaših zamisli. Vi posnamete koncept, ChatGPT pomaga pri natančnem prilagajanju poziva, DALL·E 3 pa ga oživi. Če niste ljubitelj slike, lahko ChatGPT prosite, da prilagodi poziv in DALL·E 3 poskusi znova. Za mesečno naročnino 20 $ dobite dostop do GPT-4, DALL·E 3 in mnogih drugih zanimivih funkcij.

Microsoftova Klepet Bing dobil v roke DALL·E 3, še preden ga je dobil OpenAI ChatGPT, in zdaj se z njim brezplačno ne igrajo samo velika podjetja, ampak vsi. Integracija v Bing Chat in Bing Image Creator olajša uporabo vsem.

Vzpon difuzijskih modelov

V zadnjih 3 letih je vision AI priča vzponu difuzijskih modelov, ki so naredili pomemben korak naprej, zlasti pri ustvarjanju slik. Pred difuzijskimi modeli, Generative Adversarial Networks (GAN) so bile najbolj priljubljena tehnologija za ustvarjanje realističnih slik.

GAN

Vendar pa so imeli svoj delež izzivov, vključno s potrebo po ogromnih količinah podatkov in računalniški moči, zaradi česar jih je bilo pogosto težko obvladati.

Vnesite oddajanje modeli. Pojavili so se kot bolj stabilna in učinkovita alternativa GAN-om. V nasprotju z GAN-ji difuzijski modeli delujejo tako, da podatkom dodajo šum in jih zakrijejo, dokler ne ostane le naključnost. Nato delajo nazaj, da obrnejo ta proces in rekonstruirajo pomembne podatke iz hrupa. Ta postopek se je izkazal za učinkovitega in zahteva manj virov, zaradi česar so difuzijski modeli vroča tema v skupnosti umetne inteligence.

Prava prelomnica se je zgodila okoli leta 2020, z vrsto inovativnih člankov in uvedbo OpenAI-jev CLIP tehnologijo, ki je bistveno izboljšala zmogljivosti difuzijskih modelov. Zaradi tega so difuzijski modeli izjemno dobri pri sintezi besedila v sliko, kar jim omogoča ustvarjanje realističnih slik iz besedilnih opisov. Ti preboji niso bili le pri ustvarjanju slik, ampak tudi na področjih, kot so glasbena kompozicija in biomedicinske raziskave.

Danes difuzijski modeli niso le tema akademskega interesa, ampak se uporabljajo v praktičnih scenarijih iz resničnega sveta.

Generativno modeliranje in sloji samopozornosti: DALL-E 3

vir

Eden od kritičnih napredkov na tem področju je bil razvoj generativnega modeliranja, pri čemer so prednjačili pristopi, ki temeljijo na vzorčenju, kot sta avtoregresivno generativno modeliranje in difuzijski procesi. Preoblikovali so modele besedila v sliko, kar vodi do drastičnih izboljšav delovanja. Z razčlenitvijo generiranja slik na ločene korake so ti modeli postali bolj razumljivi in se jih nevronske mreže lažje naučijo.

Vzporedno je imela uporaba plasti samopozornosti ključno vlogo. Ti sloji, zloženi skupaj, so pomagali pri ustvarjanju slik brez potrebe po implicitnih prostorskih pristranskostih, kar je pogosta težava pri zavojih. Ta premik je omogočil, da se modeli besedila v sliko povečajo in zanesljivo izboljšajo zaradi dobro razumljenih lastnosti prilagajanja transformatorjev.

Izzivi in rešitve pri ustvarjanju slik

Kljub tem napredkom ostaja nadzor pri ustvarjanju slik izziv. Težave, kot je hitro sledenje, kjer se model morda ne drži natančno vnesenega besedila, so prevladovale. Za obravnavo tega so bili predlagani novi pristopi, kot je izboljšanje napisov, namenjeni izboljšanju kakovosti parov besedila in slik v naborih podatkov za usposabljanje.

Izboljšanje napisov: nov pristop

Izboljšanje napisov vključuje generiranje napisov boljše kakovosti za slike, kar pomaga pri usposabljanju natančnejših modelov besedila v sliko. To dosežemo z robustnim podnapisom slik, ki ustvari podrobne in natančne opise slik. Z usposabljanjem na teh izboljšanih napisih je DALL-E 3 dosegel izjemne rezultate, ki so zelo podobni fotografijam in umetninam, ki so jih ustvarili ljudje.

Usposabljanje naprej Sintetični podatki

Koncept usposabljanja na sintetičnih podatkih ni nov. Vendar pa je edinstven prispevek tukaj v ustvarjanju novega, opisnega sistema podnapisov slik. Vpliv uporabe sintetičnih napisov za usposabljanje generativnih modelov je bil precejšen, kar je privedlo do izboljšav v zmožnosti modela, da natančno sledi navodilom.

Ocenjevanje DALL-E 3

Z večkratnim ocenjevanjem in primerjavami s prejšnjimi modeli, kot sta DALL-E 2 in Stable Diffusion XL, je DALL-E 3 dokazal vrhunsko zmogljivost, zlasti pri nalogah, povezanih s takojšnjim sledenjem.

Primerjava modelov besedila v sliko na različnih ocenah

Uporaba avtomatiziranih vrednotenj in meril je zagotovila jasne dokaze o njegovih zmožnostih in utrdila njegov položaj najsodobnejšega generatorja besedila v sliko.

Pozivi in zmožnosti DALL-E 3

DALL-E 3 ponuja bolj logičen in prefinjen pristop k ustvarjanju vizualnih podob. Ko se pomikate skozi, boste opazili, kako DALL-E izdela vsako sliko z mešanico natančnosti in domišljije, ki odmeva z danim pozivom.

Za razliko od svojega predhodnika se ta nadgrajena različica odlikuje po naravni razporeditvi predmetov v prizoru in natančnem upodabljanju človeških potez, vse do pravilnega števila prstov na roki. Izboljšave segajo do drobnih podrobnosti in so zdaj na voljo v višji ločljivosti, kar zagotavlja bolj realističen in profesionalen izpis.

Znatno so se izboljšale tudi zmogljivosti upodabljanja besedila. Medtem ko so prejšnje različice DALL-E ustvarjale blebetanje, lahko DALL-E 3 zdaj ustvari čitljive in profesionalno oblikovane črke (včasih) in občasno celo čiste logotipe.

Modelovo razumevanje zapletenih in niansiranih slikovnih zahtev je bilo bistveno izboljšano. DALL-E 3 lahko zdaj natančno sledi podrobnim opisom, tudi v scenarijih z več elementi in posebnimi navodili, kar dokazuje njegovo sposobnost ustvarjanja koherentnih in dobro sestavljenih slik. Raziščimo nekaj pozivov in ustrezne rezultate, ki smo jih dobili:

Design the packaging for a line of organic teas. Include space for the product name and description.

Slike DALL-E 3 na podlagi besedilnih pozivov (upoštevajte, da ima levi plakat napačno črkovanje)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

Slike DALL-E 3 na podlagi besedilnih pozivov

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

Slike DALL-E 3 na podlagi besedilnih pozivov (upoštevajte, da imata oba plakata napačno črkovano)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

Slike DALL-E 3 na podlagi besedilnih pozivov

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

Slike DALL-E 3 na podlagi besedilnih pozivov

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

Slike DALL-E 3 na podlagi besedilnih pozivov

Omejitve in tveganje DALL-E 3

OpenAI je naredil pomembne korake za filtriranje eksplicitne vsebine iz podatkov o usposabljanju DALL-E 3, s ciljem zmanjšati pristranskosti in izboljšati rezultate modela. To vključuje uporabo posebnih filtrov za kategorije občutljive vsebine in revizijo pragov za širše filtre. Sklad za ublažitev vključuje tudi več plasti zaščitnih ukrepov, kot so zavrnitveni mehanizmi v ChatGPT za občutljive teme, klasifikatorji takojšnjih vnosov za preprečevanje kršitev pravilnika, seznami blokiranih za določene kategorije vsebine in transformacije za zagotovitev, da so pozivi usklajeni s smernicami.

Kljub svojemu napredku ima DALL-E 3 omejitve pri razumevanju prostorskih odnosov, natančnem upodabljanju dolgega besedila in ustvarjanju specifičnih slik. OpenAI se zaveda teh izzivov in dela na izboljšavah za prihodnje različice.

Podjetje prav tako dela na načinih za razlikovanje slik, ustvarjenih z umetno inteligenco, od tistih, ki jih ustvarijo ljudje, kar odraža njihovo zavezanost preglednosti in odgovorni uporabi umetne inteligence.

DALL E 3

Najnovejša različica DALL-E 3 bo na voljo v fazah, začenši s posebnimi skupinami strank in kasneje razširjena na raziskovalne laboratorije in storitve API. Vendar pa datum brezplačne javne objave še ni potrjen.

OpenAI resnično postavlja nov standard na področju umetne inteligence z DALL-E 3, ki nemoteno premosti kompleksne tehnične zmogljivosti in uporabniku prijazne vmesnike. Integracija DALL-E 3 v široko uporabljane platforme, kot je Bing, odraža premik od specializiranih aplikacij k širšim, bolj dostopnim oblikam zabave in uporabnosti.

Prava sprememba v prihodnjih letih bo verjetno ravnovesje med inovacijami in opolnomočenjem uporabnikov. Uspešna podjetja bodo tista, ki ne le premikajo meje tega, kar lahko doseže umetna inteligenca, ampak tudi uporabnikom zagotavljajo avtonomijo in nadzor, ki si jih želijo. OpenAI s svojo zavezanostjo etični umetni inteligenci skrbno krmari po tej poti. Cilj je jasen: ustvariti orodja umetne inteligence, ki niso le zmogljiva, ampak tudi vredna zaupanja in vključujoča ter zagotavljajo, da so prednosti umetne inteligence dostopne vsem.

Ne zamudite

Hitro hekanje in zloraba LLM

Aayush Mittal

Zadnjih pet let sem se potopil v fascinanten svet strojnega in globokega učenja. Moja strast in strokovno znanje sta me pripeljala do tega, da sem prispeval k več kot 50 raznolikim projektom programskega inženiringa, s posebnim poudarkom na AI/ML. Moja nenehna radovednost me je pripeljala tudi do obdelave naravnega jezika, področja, ki ga želim nadalje raziskati.

Unite.AI

Podrobnejši pogled na DALL-E 3 OpenAI

Hiter inženiring

Podrobnejši pogled na DALL-E 3 OpenAI

Kazalo vsebine

Vzpon difuzijskih modelov

Generativno modeliranje in sloji samopozornosti: DALL-E 3

Izzivi in rešitve pri ustvarjanju slik

Izboljšanje napisov: nov pristop

Usposabljanje naprej Sintetični podatki

Ocenjevanje DALL-E 3

Pozivi in zmožnosti DALL-E 3

Omejitve in tveganje DALL-E 3

Zadnje objave

Unite.AI

Podrobnejši pogled na DALL-E 3 OpenAI

Kazalo vsebine

Vzpon difuzijskih modelov

Generativno modeliranje in sloji samopozornosti: DALL-E 3

Izzivi in ​​rešitve pri ustvarjanju slik

Izboljšanje napisov: nov pristop

Usposabljanje naprej Sintetični podatki

Ocenjevanje DALL-E 3

Pozivi in ​​zmožnosti DALL-E 3

Omejitve in tveganje DALL-E 3

Morda vam bo všeč

Zadnje objave

Izzivi in rešitve pri ustvarjanju slik

Pozivi in zmožnosti DALL-E 3