никулец Подетален поглед на DALL-E 3 на OpenAI - Unite.AI
Поврзете се со нас

Брзо инженерство

Поблизок поглед на DALL-E 3 на OpenAI

mm

Објавено

 on

ДАЛ Е 3

Во Генеративна АИ светот, следење на најновите е името на играта. И кога станува збор за генерирање слики, Стабилна дифузија и Средно патување беа платформата за која сите зборуваа – до сега.

Претставен OpenAI, поддржан од технолошкиот гигант Мајкрософт ДАЛ Е 3 на 20 септември 2023 година.

DALL-E 3 не е само создавање слики; се работи за оживување на вашите идеи, токму онака како што сте ги замислиле. И најдобриот дел? Брзо е, како, навистина брзо. Имате идеја, ја нахранувате со DALL-E 3 и бум, вашата слика е подготвена.

Значи, во оваа статија, ќе нурнеме длабоко во она што е DALL-E 3. Ќе разговараме за тоа како функционира, што го издвојува од останатите и зошто можеби е алатката за која не сте знаеле дека ви е потребна. Без разлика дали сте дизајнер, уметник или само некој со многу кул идеи, ќе сакате да се задржите на ова. Ајде да почнеме.

Она што е ново со DALL·E 3 е тоа што добива контекст многу подобро од DALL·E 2. Претходните верзии можеби пропуштиле некои специфики или игнорирале неколку детали овде и таму, но DALL·E 3 е на место. Ги открива точните детали за тоа што го барате, давајќи ви слика што е поблиска до она што сте го замислиле.

Ладниот дел? DALL·E 3 и Разговор GPT сега се интегрирани заедно. Тие работат заедно за да ви помогнат да ги усовршите вашите идеи. Снимате концепт, ChatGPT помага во дотерување на известувањето, а DALL·E 3 го оживува. Ако не сте обожавател на сликата, можете да побарате од ChatGPT да го прилагоди известувањето и да побара DALL·E 3 да се обиде повторно. За месечна наплата од 20$, добивате пристап до GPT-4, DALL·E 3 и многу други интересни функции.

Мајкрософт Бинг разговор го доби DALL·E 3 дури и пред ChatGPT на OpenAI, и сега не се само големите претпријатија, туку и сите кои можат бесплатно да си играат со него. Интеграцијата во Bing Chat и Bing Image Creator го прави многу полесен за користење за секого.

Подемот на моделите на дифузија

Во последните 3 години, визуелната вештачка интелигенција беше сведок на порастот на моделите за дифузија, правејќи значителен скок напред, особено во генерирањето слики. Пред моделите за дифузија, Генеративни противнички мрежи (GAN) беа технологијата за генерирање реални слики.

ГАН

ГАН

Сепак, тие имаа свој дел од предизвици, вклучително и потребата за огромни количини на податоци и пресметковна моќ, што често ги правеше незгодни за справување.

Внесете дифузија модели. Тие се појавија како постабилна и поефикасна алтернатива на ГАН. За разлика од GAN, моделите за дифузија работат со додавање шум на податоците, прикривајќи ги додека не остане само случајноста. Тие потоа работат наназад за да го сменат овој процес, реконструирајќи значајни податоци од бучавата. Овој процес се покажа како ефикасен и помалку интензивен за ресурси, што ги прави моделите на дифузија жешка тема во заедницата за вештачка интелигенција.

Вистинската пресвртница дојде околу 2020 година, со низа иновативни трудови и воведување на клип на OpenAI технологија, која значително ги унапреди можностите на моделите за дифузија. Ова ги направи моделите на дифузија исклучително добри во синтезата од текст во слика, овозможувајќи им да генерираат реални слики од текстуални описи. Овие откритија не беа само во генерирањето слики, туку и во полиња како музичка композиција биомедицински истражувања.

Денес, моделите на дифузија не се само тема од академски интерес, туку се користат во практични сценарија од реалниот свет.

Генеративно моделирање и слоеви на само-внимание: DALL-E 3

Еден од критичните достигнувања на ова поле е еволуцијата на генеративното моделирање, при што водат пристапите засновани на примероци како што се авторегресивно генеративно моделирање и процесите на дифузија. Тие ги трансформираа моделите од текст во слика, што доведе до драстични подобрувања во перформансите. Со разложување на генерирањето слики на дискретни чекори, овие модели станаа попристапни и полесни за учење на невронските мрежи.

Паралелно, употребата на слоеви за самовнимание одигра клучна улога. Овие слоеви, наредени заедно, помогнаа во генерирањето слики без потреба од имплицитни просторни предрасуди, вообичаен проблем со конволуциите. Оваа промена им овозможи на моделите од текст во слика да се зголемуваат и да се подобруваат сигурно, поради добро разбраните својства на скалирање на трансформаторите.

Предизвици и решенија во генерирање слики

И покрај овие достигнувања, контролата во генерирањето слики останува предизвик. Прашања како што се брзо следење, каде што моделот можеби не се придржува блиску до внесениот текст, се распространети. За да се реши ова, предложени се нови пристапи, како што е подобрување на титловите, насочени кон подобрување на квалитетот на спарувањето на текст и слики во збирките на податоци за обука.

Подобрување на насловот: нов пристап

Подобрувањето на титловите вклучува создавање на поквалитетни натписи за сликите, што пак помага во обуката на попрецизни модели текст-на-слика. Ова се постигнува преку робустен титл на слики што произведува детални и точни описи на сликите. Со обука на овие подобрени натписи, DALL-E 3 успеаја да постигнат извонредни резултати, многу слични на фотографии и уметнички дела произведени од луѓе.

Тренинг на Синтетички податоци

Концептот на обука за синтетички податоци не е нов. Сепак, единствениот придонес овде е во создавањето на нов, описен систем за титлови на слики. Влијанието на користењето на синтетички натписи за обука на генеративни модели е значително, што доведе до подобрувања во способноста на моделот точно да ги следи упатствата.

Оценување на DALL-E 3

Преку повеќекратна евалуација и споредби со претходните модели како DALL-E 2 и Stable Diffusion XL, DALL-E 3 покажа супериорни перформанси, особено во задачите поврзани со брзо следење.

Споредба на модели од текст во слика на различни евалуации

Споредба на модели од текст во слика на различни евалуации

Употребата на автоматизирани проценки и одредници обезбеди јасен доказ за неговите способности, зацврстувајќи ја нејзината позиција како најсовремен генератор на текст во слика.

DALL-E 3 Информации и способности

DALL-E 3 нуди пологичен и попрефинет пристап за создавање визуелни слики. Додека се движите низ, ќе забележите како DALL-E ја изработува секоја слика, со спој на точност и имагинација што резонира со даденото барање.

За разлика од својот претходник, оваа надградена верзија се истакнува во природното уредување на предметите во сцената и прецизно прикажување на човечките карактеристики, до точниот број на прсти на раката. Подобрувањата се прошируваат на поситни детали и сега се достапни со поголема резолуција, обезбедувајќи пореален и професионален резултат.

Способностите за рендерирање на текст, исто така, забележаа значително подобрување. Онаму каде што претходните верзии на DALL-E произведуваа необичен текст, DALL-E 3 сега може да генерира читливи и професионално стилизирани букви (понекогаш), па дури и чисти логоа понекогаш.

Разбирањето на сложените и нијансирани барања за слика на моделот е значително подобрено. DALL-E 3 сега може прецизно да следи детални описи, дури и во сценарија со повеќе елементи и специфични инструкции, покажувајќи ја неговата способност да произведува кохерентни и добро составени слики. Ајде да истражиме некои потсетници и соодветниот излез што го добивме:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 слики базирани на текстуални инструкции

Слики DALL-E 3 засновани на текстуални барања (Забележете дека левиот постер има погрешен правопис)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 слики базирани на текстуални инструкции

DALL-E 3 слики базирани на текстуални инструкции

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 слики базирани на текстуални инструкции

Слики DALL-E 3 засновани на текстуални барања (Имајте предвид дека и двата постери имаат погрешен правопис)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 слики базирани на текстуални инструкции

DALL-E 3 слики базирани на текстуални инструкции

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 слики базирани на текстуални инструкции

DALL-E 3 слики базирани на текстуални инструкции

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 слики базирани на текстуални инструкции

DALL-E 3 слики базирани на текстуални инструкции

Ограничувања и ризик од DALL-E 3

OpenAI презеде значителни чекори за филтрирање на експлицитна содржина од податоците за обуката на DALL-E 3, со цел да ги намали предрасудите и да го подобри излезот на моделот. Ова вклучува примена на специфични филтри за категории на чувствителни содржини и ревизија на праговите за пошироки филтри. Пакетот за ублажување, исто така, вклучува неколку слоеви на заштитни мерки, како што се механизмите за одбивање во ChatGPT за чувствителни теми, класификатори на брзи влезни податоци за да се спречат прекршувања на политиките, блок-листи за одредени категории на содржини и трансформации за да се обезбеди усогласување со упатствата со упатствата.

И покрај неговите достигнувања, DALL-E 3 има ограничувања во разбирањето на просторните односи, прецизното прикажување на долг текст и генерирањето специфични слики. OpenAI ги признава овие предизвици и работи на подобрувања за идните верзии.

Компанијата исто така работи на начини да ги разликува сликите генерирани со вештачка интелигенција од оние направени од луѓето, што ја одразува нивната посветеност на транспарентност и одговорна употреба на вештачка интелигенција.

ДАЛ Е

ДАЛ Е 3

DALL-E 3, најновата верзија, ќе биде достапна во фази, почнувајќи со специфични групи на клиенти, а подоцна проширувајќи се во истражувачки лаборатории и API услуги. Сепак, датумот за бесплатно јавно објавување сè уште не е потврден.

OpenAI навистина поставува нов стандард во областа на вештачката интелигенција со DALL-E 3, беспрекорно премостувајќи ги сложените технички способности и интерфејсите кои се лесни за корисникот. Интеграцијата на DALL-E 3 во широко користените платформи како Bing ја одразува промената од специјализирани апликации кон пошироки, попристапни форми на забава и корист.

Вистинската промена на играта во наредните години најверојатно ќе биде рамнотежата помеѓу иновациите и зајакнувањето на корисниците. Компаниите кои напредуваат ќе бидат оние кои не само што ги поместуваат границите на она што може да го постигне вештачката интелигенција, туку и ќе им обезбедат на корисниците автономија и контрола што ја посакуваат. OpenAI, со својата посветеност на етичката вештачка интелигенција, внимателно се движи по овој пат. Целта е јасна: да се создадат алатки за вештачка интелигенција кои не се само моќни, туку и доверливи и инклузивни, осигурувајќи дека придобивките од вештачката интелигенција се достапни за сите.

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.