Kiire inseneritöö

Vaata lähemalt OpenAI DALL-E 3

avaldatud

1 päeva tagasi

Oktoober 31, 2023

aasta Generatiivne AI maailm, uusimate asjadega kursis olemine on mängu nimi. Ja kui tegemist on piltide genereerimisega, siis Stable Diffusion ja Keskteekond olid platvorm, millest kõik rääkisid – siiani.

Tutvustas tehnoloogiahiiglase Microsofti toetatud OpenAI-d DALL E 3 20th, 2023.

DALL-E 3 ei seisne ainult piltide loomises; see seisneb teie ideede elluviimises just sellisena, nagu te neid ette kujutasite. Ja parim osa? See on kiire, nagu väga kiire. Teil on idee, sisestate selle DALL-E 3-le ja buum, teie pilt on valmis.

Niisiis, selles artiklis sukeldume sügavale sellesse, mida DALL-E 3 endast kujutab. Räägime sellest, kuidas see töötab, mis eristab seda teistest ja miks see võib olla lihtsalt tööriist, mida te ei teadnud, et vajate. Olenemata sellest, kas olete disainer, kunstnik või lihtsalt keegi, kellel on palju lahedaid ideid, tahate seda teha. Alustame.

DALL·E 3 puhul on uus see, et see näeb konteksti palju paremini välja kui DALL·E 2. Varasemad versioonid võisid mõnest spetsiifikast mööda vaadata või eiranud mõningaid üksikasju siin-seal, kuid DALL·E 3 on asjakohane. See tuvastab teie soovitud täpsed üksikasjad, andes teile pildi, mis on lähedasem sellele, mida te ette kujutasite.

Lahe osa? DALL·E 3 ja ChatGPT on nüüd kokku integreeritud. Nad töötavad koos, et aidata teie ideid täpsustada. Kui pildistate kontseptsiooni, ChatGPT aitab viipa peenhäälestada ja DALL·E 3 äratab selle ellu. Kui te ei ole pildi fänn, võite paluda ChatGPT-l viipa kohandada ja lasta DALL·E 3-l uuesti proovida. 20-dollarise kuutasu eest saate juurdepääsu GPT-4-le, DALL·E 3-le ja paljudele teistele lahedatele funktsioonidele.

Microsoftiga Bingi vestlus sai DALL·E 3 kätte juba enne OpenAI ChatGPT-d ja nüüd saavad sellega tasuta mängida mitte ainult suurettevõtted, vaid kõik. Integreerimine Bing Chati ja Bing Image Creatoriga muudab selle kasutamise kõigi jaoks palju lihtsamaks.

Difusioonimudelite tõus

Viimase kolme aasta jooksul on nägemuste tehisintellekt olnud tunnistajaks difusioonimudelite levikule, mis on teinud olulise arenguhüppe, eriti piltide genereerimisel. Enne difusioonimudeleid Generatiivsed võistlevad võrgud (GAN-id) olid realistlike piltide loomise tehnoloogia.

GANid

Siiski oli neil omajagu väljakutseid, sealhulgas vajadus tohutute andmemahtude ja arvutusvõimsuse järele, mis muutis nende käsitlemise sageli keeruliseks.

sisene difusioon mudelid. Need tekkisid GAN-ide stabiilsema ja tõhusama alternatiivina. Erinevalt GAN-idest toimivad difusioonimudelid andmetele müra lisamisega, varjades neid seni, kuni järele jääb ainult juhuslikkus. Seejärel töötavad nad selle protsessi tagasipööramiseks, rekonstrueerides mürast olulisi andmeid. See protsess on osutunud tõhusaks ja vähem ressursimahukaks, muutes difusioonimudelid tehisintellekti kogukonnas kuumaks teemaks.

Tõeline pöördepunkt saabus 2020. aasta paiku, mitmete uuenduslike dokumentide ja tutvustamisega OpenAI klipp tehnoloogia, mis täiustas oluliselt difusioonimudelite võimalusi. See muutis difusioonimudelid tekstist pildiks sünteesis erakordselt heaks, võimaldades neil tekstiliste kirjelduste põhjal luua realistlikke pilte. Need läbimurded ei toimunud ainult pildi loomisel, vaid ka sellistes valdkondades nagu muusika kompositsioon ja biomeditsiinilised uuringud.

Tänapäeval ei paku difusioonimudelid ainult akadeemilist huvi, vaid neid kasutatakse praktilistes reaalsetes stsenaariumides.

Generatiivne modelleerimine ja enesetähelepanu kihid: DALL-E 3

allikas

Üks kriitilisi edusamme selles valdkonnas on olnud generatiivse modelleerimise areng, mille eeskujuks on valimipõhised lähenemisviisid, nagu autoregressiivne generatiivne modelleerimine ja difusiooniprotsessid. Nad on muutnud tekstist pildiks mudelid, mille tulemuseks on jõudluse drastilised täiustused. Jaotades kujutise genereerimise diskreetseteks sammudeks, on need mudelid muutunud paremini jälgitavaks ja närvivõrkudele hõlpsamini õpitavaks.

Paralleelselt on enesetähelepanu kihtide kasutamine mänginud otsustavat rolli. Need kokku virnastatud kihid on aidanud luua pilte, ilma et oleks vaja kaudseid ruumilisi nihkeid, mis on konvolutsioonide puhul tavaline probleem. See nihe on võimaldanud tekstist pildiks muutvaid mudeleid usaldusväärselt skaleerida ja täiustada tänu trafode hästi mõistetavatele skaleerimisomadustele.

Väljakutsed ja lahendused pildi genereerimisel

Vaatamata nendele edusammudele on kujutise genereerimise juhitavus endiselt väljakutse. Levinud on olnud sellised probleemid nagu viipe järgimine, mille puhul mudel ei pruugi sisendtekstile täpselt kinni jääda. Selle probleemi lahendamiseks on välja pakutud uusi lähenemisviise, nagu pealkirjade täiustamine, mille eesmärk on parandada teksti ja pildi sidumise kvaliteeti koolitusandmekogumites.

Tiitrite täiustamine: uudne lähenemine

Tiitrite täiustamine hõlmab piltidele parema kvaliteediga pealdiste loomist, mis omakorda aitab koolitada täpsemaid tekst-pildiks mudeleid. See saavutatakse tugeva pildiallkirja abil, mis loob piltide üksikasjalikud ja täpsed kirjeldused. Nende täiustatud pealdistega treenides on DALL-E 3 suutnud saavutada märkimisväärseid tulemusi, mis on väga sarnased inimeste tehtud fotode ja kunstiteostega.

Treening käimas Sünteetilised andmed

Sünteetiliste andmete koolituse kontseptsioon ei ole uus. Ainulaadne panus on siin aga uudse kirjeldava pilditiitrite süsteemi loomises. Sünteetiliste subtiitrite kasutamise mõju generatiivsete mudelite koolitamisel on olnud märkimisväärne, mis on parandanud mudeli võimet järgida juhiseid täpselt.

DALL-E hindamine 3

Mitmekordse hindamise ja varasemate mudelitega, nagu DALL-E 2 ja Stable Diffusion XL, võrdlemise kaudu on DALL-E 3 näidanud suurepärast jõudlust, eriti kiire jälgimisega seotud ülesannete puhul.

Tekst-pildiks mudelite võrdlus erinevatel hinnangutel

Automaatsete hindamiste ja võrdlusaluste kasutamine on andnud selgeid tõendeid selle võimete kohta, kinnitades selle positsiooni tipptasemel teksti-pildi generaatorina.

DALL-E 3 juhised ja võimed

DALL-E 3 pakub visuaalide loomisel loogilisemat ja rafineeritumat lähenemist. Sirvimisel märkate, kuidas DALL-E valmistab iga pildi täpsuse ja kujutlusvõime seguga, mis vastab antud viipale.

Erinevalt oma eelkäijast on see täiendatud versioon suurepärane objektide loomuliku paigutuse poolest stseenis ja inimjoonte täpse kujutamisega kuni õige sõrmede arvuni käel. Täiustused ulatuvad peenemate detailideni ja on nüüd saadaval kõrgema eraldusvõimega, tagades realistlikuma ja professionaalsema väljundi.

Tekstide renderdamise võimalused on samuti oluliselt paranenud. Kui DALL-E varasemad versioonid tekitasid jaburat teksti, siis DALL-E 3 suudab nüüd luua loetavaid ja professionaalselt kujundatud kirju (mõnikord) ja mõnikord isegi puhtaid logosid.

Mudeli arusaam keerukatest ja nüansirikastest pildipäringutest on oluliselt paranenud. DALL-E 3 suudab nüüd täpselt järgida üksikasjalikke kirjeldusi isegi mitme elemendi ja konkreetsete juhistega stsenaariumide korral, näidates selle võimet luua ühtseid ja hästi koostatud pilte. Uurime mõningaid viipasid ja vastavat väljundit, mille saime:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 pildid, mis põhinevad tekstiviipadel (pange tähele, et vasakpoolsel plakatil on õigekirjaviga)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 pilti tekstiviipade põhjal

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 pildid, mis põhinevad tekstiviipadel (Pange tähele, et mõlemal plakatil on vale kirjapilt)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 pilti tekstiviipade põhjal

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 pilti tekstiviipade põhjal

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 pilti tekstiviipade põhjal

DALL-E piirangud ja risk 3

OpenAI on astunud olulisi samme, et filtreerida selgesõnaline sisu DALL-E 3 treeningandmetest, eesmärgiga vähendada eelarvamusi ja parandada mudeli väljundit. See hõlmab spetsiifiliste filtrite rakendamist tundliku sisu kategooriate jaoks ja lävede ülevaatamist laiemate filtrite jaoks. Leevenduspakk sisaldab ka mitut kaitsemehhanismi, nagu keeldumismehhanismid ChatGPT-s tundlike teemade puhul, viipete sisestusklassifikaatorid eeskirjade rikkumiste vältimiseks, konkreetsete sisukategooriate blokeerimisloendid ja teisendused, mis tagavad viipade vastavuse juhistele.

Vaatamata edusammudele on DALL-E 3 ruumiliste suhete mõistmisel, pika teksti täpsel renderdamisel ja spetsiifiliste kujutiste loomisel piiratud. OpenAI tunnistab neid väljakutseid ja töötab tulevaste versioonide täiustamise nimel.

Ettevõte tegeleb ka viisidega, kuidas eristada tehisintellektiga loodud pilte inimeste tehtud piltidest, mis peegeldab nende pühendumust läbipaistvusele ja vastutustundlikule tehisintellekti kasutamisele.

DALL E 3

DALL-E 3, uusim versioon, on saadaval etappidena, alustades konkreetsetest kliendirühmadest ja hiljem laienedes uurimislaboritele ja API teenustele. Tasuta avalikku väljalaskekuupäeva pole aga veel kinnitatud.

OpenAI seab DALL-E 3-ga tehisintellekti valdkonnas tõeliselt uue standardi, ühendades sujuvalt keerukad tehnilised võimalused ja kasutajasõbralikud liidesed. DALL-E 3 integreerimine laialdaselt kasutatavatesse platvormidesse, nagu Bing, peegeldab üleminekut spetsiaalsetelt rakendustelt laiematele, ligipääsetavamatele meelelahutus- ja utiliidivormidele.

Tõeline mängumuutus lähiaastatel on tõenäoliselt tasakaal innovatsiooni ja kasutajate mõjuvõimu suurendamise vahel. Edukalt arenevad ettevõtted, kes mitte ainult ei nihuta tehisintellekti saavutamise piire, vaid pakuvad kasutajatele ka soovitud autonoomiat ja kontrolli. OpenAI, pühendudes eetilisele tehisintellektile, liigub sellel teel ettevaatlikult. Eesmärk on selge: luua tehisintellekti tööriistu, mis pole mitte ainult võimsad, vaid ka usaldusväärsed ja kaasavad, tagades, et tehisintellekti eelised on kõigile kättesaadavad.

Ära jäta

LLM-ide kiire häkkimine ja väärkasutamine

Aayush Mittal

Olen viimased viis aastat veetnud masinõppe ja süvaõppe põnevasse maailma sukeldudes. Minu kirg ja teadmised on pannud mind panustama enam kui 50 erinevasse tarkvaratehnoloogia projekti, keskendudes eelkõige AI/ML-ile. Minu jätkuv uudishimu on tõmmanud mind ka loomuliku keele töötlemise poole, valdkonda, mida ma innukalt edasi uurin.

Ühendage.AI

Vaata lähemalt OpenAI DALL-E 3

Kiire inseneritöö

Vaata lähemalt OpenAI DALL-E 3

Sisukord

Difusioonimudelite tõus

Generatiivne modelleerimine ja enesetähelepanu kihid: DALL-E 3

Väljakutsed ja lahendused pildi genereerimisel

Tiitrite täiustamine: uudne lähenemine

Treening käimas Sünteetilised andmed

DALL-E hindamine 3

DALL-E 3 juhised ja võimed

DALL-E piirangud ja risk 3

Viimased postitused

Ühendage.AI

Vaata lähemalt OpenAI DALL-E 3

Sisukord

Difusioonimudelite tõus

Generatiivne modelleerimine ja enesetähelepanu kihid: DALL-E 3

Väljakutsed ja lahendused pildi genereerimisel

Tiitrite täiustamine: uudne lähenemine

Treening käimas Sünteetilised andmed

DALL-E hindamine 3

DALL-E 3 juhised ja võimed

DALL-E piirangud ja risk 3

Võib meeldida

Viimased postitused