Nopea suunnittelu

Tarkempi katsaus OpenAI:n DALL-E 3:een

Julkaistu

1 päivä sitten

Lokakuu 31, 2023

In Generatiivinen AI pelin nimi on pysyä ajan tasalla. Ja kun se tulee luomaan kuvia, Stable Diffusion ja Keskimatka olivat alusta, josta kaikki puhuivat – tähän asti.

Teknologiajätti Microsoftin tukema OpenAI esiteltiin DALL E 3 syyskuussa 20th, 2023.

DALL-E 3 ei ole vain kuvien luomista; kyse on ideoiden toteuttamisesta juuri sellaisina kuin olet ne kuvitellut. Ja paras osa? Se on nopea, todella nopea. Sinulla on idea, syötät sen DALL-E 3:lle ja boom, kuvasi on valmis.

Joten tässä artikkelissa aiomme sukeltaa syvälle siihen, mistä DALL-E 3 on kyse. Puhumme siitä, miten se toimii, mikä erottaa sen muista ja miksi se saattaa olla vain työkalu, jota et tiennyt tarvitsevasi. Olitpa suunnittelija, taiteilija tai vain joku, jolla on paljon hienoja ideoita, haluat pysyä mukana tässä. Aloitetaan.

Uutta DALL·E 3:ssa on se, että se saa kontekstin paljon paremmin kuin DALL·E 2. Aiemmat versiot ovat saattaneet unohtaa joitain yksityiskohtia tai sivuuttaa muutamia yksityiskohtia siellä täällä, mutta DALL·E 3 on paikallaan. Se poimii tarkat tiedot siitä, mitä pyydät, ja antaa sinulle kuvan, joka on lähempänä sitä, mitä kuvittelet.

Siisti osa? DALL·E 3 ja ChatGPT on nyt integroitu yhteen. He työskentelevät yhdessä auttaakseen jalostamaan ideoitasi. Kuvaat konseptin, ChatGPT auttaa kehotteen hienosäädössä ja DALL·E 3 herättää sen henkiin. Jos et ole kuvan fani, voit pyytää ChatGPT:tä säätämään kehotetta ja saada DALL·E 3 yrittämään uudelleen. 20 dollarin kuukausimaksulla saat käyttöösi GPT-4:n, DALL·E 3:n ja monia muita hienoja ominaisuuksia.

Microsoftin bingchat otti DALL·E 3:n käsiinsä jo ennen OpenAI:n ChatGPT:tä, ja nyt ei vain suuryritykset, vaan kaikki, jotka pääsevät leikkiä sen kanssa ilmaiseksi. Integrointi Bing Chatiin ja Bing Image Creatoriin tekee siitä paljon helpompi käyttää kenen tahansa.

Diffuusiomallien nousu

Viimeisen kolmen vuoden aikana vision AI on nähnyt diffuusiomallien nousun, mikä on ottanut merkittävän harppauksen eteenpäin, erityisesti kuvan luomisessa. Ennen diffuusiomalleja, Generatiiviset kontradiktoriset verkot (GAN) olivat todellinen tekniikka realististen kuvien luomiseen.

GAN

Heillä oli kuitenkin osuutensa haasteista, mukaan lukien valtavien tietomäärien ja laskentatehon tarve, mikä teki niistä usein hankalia käsitellä.

enter lähetystoiminta mallit. Niistä tuli vakaampi ja tehokkaampi vaihtoehto GANille. Toisin kuin GAN-mallit, diffuusiomallit toimivat lisäämällä dataan kohinaa, mikä peittää sen, kunnes jäljelle jää vain satunnaisuus. Sitten he työskentelevät taaksepäin kääntääkseen tämän prosessin päinvastaiseksi ja rekonstruoivat mielekästä dataa melusta. Tämä prosessi on osoittautunut tehokkaaksi ja vähemmän resursseja vieväksi, mikä tekee diffuusiomalleista kuuman aiheen tekoälyyhteisössä.

Todellinen käännekohta tuli vuoden 2020 tienoilla, kun sarja innovatiivisia papereita esiteltiin OpenAI:n CLIP teknologiaa, joka kehitti merkittävästi diffuusiomallien ominaisuuksia. Tämä teki diffuusiomalleista poikkeuksellisen hyviä tekstistä kuvaksi -synteesissä, jolloin ne pystyivät luomaan realistisia kuvia tekstikuvauksista. Nämä läpimurrot eivät olleet vain kuvan luomisessa, vaan myös muun muassa aloilla musiikin sävellys ja biolääketieteen tutkimus.

Nykyään diffuusiomallit eivät ole vain akateemisen mielenkiinnon aihe, vaan niitä käytetään käytännön, tosielämän skenaarioissa.

Generatiivinen mallinnus ja itsetuntokerrokset: DALL-E 3

lähde

Yksi tämän alan kriittisistä edistysaskeleista on ollut generatiivisen mallintamisen kehitys, jossa näytteisiin perustuvat lähestymistavat, kuten autoregressiivinen generatiivinen mallinnus ja diffuusioprosessit, ovat olleet edelläkävijöitä. He ovat muuntaneet tekstistä kuvaksi -malleja, mikä on johtanut rajuihin suorituskyvyn parannuksiin. Jakamalla kuvan luominen erillisiin vaiheisiin, näistä malleista on tullut helpommin seurattavia ja hermoverkkojen helpompi oppia.

Samanaikaisesti itse huomioivien kerrosten käytöllä on ollut ratkaiseva rooli. Nämä kerrokset pinottuna ovat auttaneet luomaan kuvia ilman implisiittisiä spatiaalisia poikkeamia, mikä on yleinen ongelma konvoluutioissa. Tämä muutos on mahdollistanut tekstistä kuvaksi -mallien skaalauksen ja parantumisen luotettavasti muuntajien hyvin ymmärrettyjen skaalausominaisuuksien ansiosta.

Haasteet ja ratkaisut kuvan luomisessa

Näistä edistysaskeleista huolimatta kuvien luonnin ohjattavuus on edelleen haaste. Ongelmia, kuten kehotusseuranta, jossa malli ei välttämättä noudata tarkasti syöttötekstiä, ovat olleet yleisiä. Tämän korjaamiseksi on ehdotettu uusia lähestymistapoja, kuten kuvatekstien parantamista, joilla pyritään parantamaan teksti- ja kuvaparien laatua koulutustietosarjoissa.

Kuvatekstin parantaminen: uusi lähestymistapa

Kuvatekstien parantamiseen kuuluu parempilaatuisten kuvatekstien luominen kuville, mikä puolestaan auttaa kouluttamaan tarkempia tekstistä kuvaksi -malleja. Tämä saavutetaan vankalla kuvatekstityökalulla, joka tuottaa yksityiskohtaisia ja tarkkoja kuvauksia kuvista. Harjoittelemalla näitä parannettuja kuvatekstejä DALL-E 3 on pystynyt saavuttamaan merkittäviä tuloksia, jotka muistuttavat läheisesti ihmisten tekemiä valokuvia ja taideteoksia.

Harjoittelu käynnissä Synteettiset tiedot

Synteettisten tietojen koulutuksen käsite ei ole uusi. Ainutlaatuinen panos tässä on kuitenkin uudenlaisen, kuvaavan kuvien tekstitysjärjestelmän luominen. Synteettisten tekstitysten käytön vaikutus generatiivisten mallien koulutukseen on ollut merkittävä, mikä on johtanut parannuksiin mallin kyvyssä seurata kehotteita tarkasti.

DALL-E:n arviointi 3

Useiden arvioiden ja vertailujen avulla aikaisempiin malleihin, kuten DALL-E 2:een ja Stable Diffusion XL:ään, DALL-E 3 on osoittanut ylivoimaista suorituskykyä erityisesti nopeaan seuraamiseen liittyvissä tehtävissä.

Tekstistä kuvaksi -mallien vertailu erilaisilla arvioinneilla

Automaattisten arviointien ja vertailuarvojen käyttö on antanut selkeää näyttöä sen kyvyistä ja vahvistanut sen asemaa huippuluokan tekstistä kuvaksi -generaattorina.

DALL-E 3 Kehotteet ja kyvyt

DALL-E 3 tarjoaa loogisemman ja hienostuneen lähestymistavan visuaalien luomiseen. Kun selaat läpi, huomaat, kuinka DALL-E muokkaa jokaista kuvaa tarkkuuden ja mielikuvituksen sekoituksella, joka resonoi annettuun kehotteeseen.

Toisin kuin edeltäjänsä, tämä päivitetty versio on erinomainen järjestäessään esineitä luonnollisesti kohtauksen sisällä ja kuvaamaan ihmisen piirteitä tarkasti, aina oikeaan sormien määrään kädessä. Parannukset ulottuvat hienompiin yksityiskohtiin, ja ne ovat nyt saatavilla korkeammalla resoluutiolla, mikä takaa realistisemman ja ammattimaisemman lopputuloksen.

Myös tekstintoisto-ominaisuudet ovat parantuneet huomattavasti. Kun DALL-E:n aiemmat versiot tuottivat hölmöä tekstiä, DALL-E 3 voi nyt luoda luettavia ja ammattimaisesti muotoiltuja kirjaimia (joskus) ja jopa puhdistaa logoja toisinaan.

Mallin ymmärrys monimutkaisista ja vivahteikas kuvapyynnöistä on parantunut merkittävästi. DALL-E 3 voi nyt seurata tarkasti yksityiskohtaisia kuvauksia, jopa skenaarioissa, joissa on useita elementtejä ja erityisiä ohjeita, mikä osoittaa sen kyvyn tuottaa yhtenäisiä ja hyvin sommiteltuja kuvia. Tutkitaan joitain kehotteita ja vastaavaa tulosta, jonka saimme:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 tekstikehotteisiin perustuvaa kuvaa (Huomaa, että vasemman julisteen kirjoitusvirhe)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 tekstikehotteisiin perustuvaa kuvaa

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 -kuvat, jotka perustuvat tekstikehotteisiin (Huomaa, että molemmissa julisteissa on kirjoitusvirheitä)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 tekstikehotteisiin perustuvaa kuvaa

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 tekstikehotteisiin perustuvaa kuvaa

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 tekstikehotteisiin perustuvaa kuvaa

DALL-E:n rajoitukset ja riski 3

OpenAI on ryhtynyt merkittäviin toimenpiteisiin suodattaakseen eksplisiittistä sisältöä DALL-E 3:n harjoitustiedoista. Tavoitteena on vähentää harhoja ja parantaa mallin tulosta. Tämä sisältää erityisten suodattimien soveltamisen arkaluonteisiin sisältöluokkiin ja laajempien suodattimien kynnysarvojen tarkistamisen. Lievennyspino sisältää myös useita suojakeinoja, kuten hylkäysmekanismit ChatGPT:ssä arkaluonteisten aiheiden osalta, nopeat syötteiden luokittimet käytäntörikkomusten estämiseksi, estoluettelot tiettyjä sisältöluokkia varten ja muunnokset, joilla varmistetaan, että kehotteet ovat ohjeiden mukaisia.

Edistymistään huolimatta DALL-E 3:lla on rajoituksia tilasuhteiden ymmärtämisessä, pitkän tekstin tarkkuudessa ja erityisten kuvien luomisessa. OpenAI tunnustaa nämä haasteet ja pyrkii parantamaan tulevia versioita.

Yhtiö etsii myös tapoja erottaa tekoälyn luomat kuvat ihmisten tekemistä kuvista, mikä kuvastaa heidän sitoutumistaan läpinäkyvyyteen ja vastuulliseen tekoälyn käyttöön.

DALL E 3

DALL-E 3, uusin versio, tulee saataville vaiheittain alkaen tietyistä asiakasryhmistä ja laajentaa myöhemmin tutkimuslaboratorioihin ja API-palveluihin. Ilmaista julkista julkaisupäivää ei kuitenkaan ole vielä vahvistettu.

OpenAI asettaa todella uuden standardin tekoälyn alalla DALL-E 3:n avulla, joka yhdistää saumattomasti monimutkaiset tekniset ominaisuudet ja käyttäjäystävälliset käyttöliittymät. DALL-E 3:n integrointi laajalti käytettyihin alustoihin, kuten Bingiin, kuvastaa siirtymistä erikoissovelluksista laajempiin, helpommin saavutettaviin viihteen ja hyödyllisyysmuotoihin.

Todellinen pelin muuttaja tulevina vuosina on todennäköisesti tasapaino innovaation ja käyttäjien voimaantumisen välillä. Menestyvät yritykset ovat sellaisia, jotka eivät vain työnnä tekoälyn rajoja, vaan tarjoavat myös käyttäjille haluamansa autonomian ja hallinnan. OpenAI, joka on sitoutunut eettiseen tekoälyyn, kulkee tätä polkua huolellisesti. Tavoite on selvä: luoda tekoälytyökaluja, jotka eivät ole vain tehokkaita, vaan myös luotettavia ja kattavat varmistaen, että tekoälyn edut ovat kaikkien saatavilla.

Älä missaa

LLM-yritysten nopea hakkerointi ja väärinkäyttö

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.

Unite.AI

Tarkempi katsaus OpenAI:n DALL-E 3:een

Nopea suunnittelu

Tarkempi katsaus OpenAI:n DALL-E 3:een

Sisällysluettelo

Diffuusiomallien nousu

Generatiivinen mallinnus ja itsetuntokerrokset: DALL-E 3

Haasteet ja ratkaisut kuvan luomisessa

Kuvatekstin parantaminen: uusi lähestymistapa

Harjoittelu käynnissä Synteettiset tiedot

DALL-E:n arviointi 3

DALL-E 3 Kehotteet ja kyvyt

DALL-E:n rajoitukset ja riski 3

Uusimmat viestit

Unite.AI

Tarkempi katsaus OpenAI:n DALL-E 3:een

Sisällysluettelo

Diffuusiomallien nousu

Generatiivinen mallinnus ja itsetuntokerrokset: DALL-E 3

Haasteet ja ratkaisut kuvan luomisessa

Kuvatekstin parantaminen: uusi lähestymistapa

Harjoittelu käynnissä Synteettiset tiedot

DALL-E:n arviointi 3

DALL-E 3 Kehotteet ja kyvyt

DALL-E:n rajoitukset ja riski 3

Saatat pitää

Uusimmat viestit