кочан Поглед отблизо към DALL-E 3 на OpenAI - Unite.AI
Свържете се с нас

Бърз инженеринг

Поглед отблизо към DALL-E 3 на OpenAI

mm

Публикуван

 on

DALL E 3

в Генеративен AI свят, в крак с най-новото е името на играта. И когато става въпрос за генериране на изображения, Stable Diffusion и По средата на пътуването бяха платформата, за която всички говореха – досега.

Представен OpenAI, подкрепен от технологичния гигант Microsoft DALL E 3 на септември 20th, 2023.

DALL-E 3 не е само създаване на изображения; става дума за вкарване на вашите идеи в живот, точно както сте си ги представяли. И най-добрата част? Бързо е, наистина бързо. Имате идея, предавате я на DALL-E 3 и бум, вашето изображение е готово.

И така, в тази статия ще се потопим дълбоко в това какво представлява DALL-E 3. Ще говорим за това как работи, какво го отличава от останалите и защо може да е просто инструментът, от който не сте знаели, че имате нужда. Независимо дали сте дизайнер, художник или просто някой с много страхотни идеи, ще искате да останете за това. Да започваме.

Новото при DALL·E 3 е, че получава контекст много по-добре от DALL·E 2. По-ранните версии може да са пропуснали някои специфики или да са пренебрегнали някои детайли тук и там, но DALL·E 3 е на мястото си. Той улавя точните детайли на това, което искате, като ви дава картина, която е по-близо до това, което сте си представяли.

Готината част? DALL·E 3 и ChatGPT сега са интегрирани заедно. Те работят заедно, за да усъвършенстват вашите идеи. Вие снимате концепция, ChatGPT помага за фина настройка на подканата, а DALL·E 3 я вдъхва живот. Ако не сте фен на изображението, можете да помолите ChatGPT да промени подканата и да накарате DALL·E 3 да опита отново. Срещу месечна такса от 20$ получавате достъп до GPT-4, DALL·E 3 и много други страхотни функции.

на Microsoft Чат в Bing се сдоби с DALL·E 3 дори преди ChatGPT на OpenAI и сега не само големите предприятия, но и всеки може да играе с него безплатно. Интегрирането в Bing Chat и Bing Image Creator го прави много по-лесен за използване от всеки.

Възходът на дифузионните модели

През последните 3 години Vision AI стана свидетел на възхода на дифузионните модели, като направи значителен скок напред, особено в генерирането на изображения. Преди дифузионните модели, Генеративни състезателни мрежи (GAN) бяха основната технология за генериране на реалистични изображения.

GAN

GAN

Те обаче имаха своя дял от предизвикателства, включително необходимостта от огромни количества данни и изчислителна мощност, което често ги правеше трудни за справяне.

Въведете дифузия модели. Те се появиха като по-стабилна и ефективна алтернатива на GAN. За разлика от GAN, дифузионните модели работят чрез добавяне на шум към данните, затъмнявайки ги, докато остане само случайност. След това те работят назад, за да обърнат този процес, реконструирайки значими данни от шума. Този процес се оказа ефективен и изисква по-малко ресурси, което прави дифузионните модели гореща тема в общността на AI.

Истинската повратна точка дойде около 2020 г. с поредица от иновативни документи и въвеждането на CLIP на OpenAI технология, която значително усъвършенства възможностите на дифузионните модели. Това направи моделите на дифузия изключително добри в синтеза на текст към изображение, което им позволява да генерират реалистични изображения от текстови описания. Този пробив не беше само в генерирането на изображения, но и в области като музикална композиция намлява биомедицински изследвания.

Днес дифузионните модели не са само тема от академичен интерес, но се използват в практически сценарии от реалния свят.

Генеративно моделиране и слоеве за самовнимание: DALL-E 3

Един от критичните постижения в тази област е еволюцията на генеративното моделиране, с подходи, базирани на вземане на проби, като авторегресивно генеративно моделиране и процеси на дифузия, които водят пътя. Те са трансформирали моделите текст към изображение, което води до драстични подобрения на производителността. Чрез разделянето на генерирането на изображения на отделни стъпки, тези модели са станали по-податливи и по-лесни за научаване от невронните мрежи.

Успоредно с това, използването на слоеве за самовнимание изигра решаваща роля. Тези слоеве, подредени заедно, помогнаха за генерирането на изображения без необходимост от имплицитни пространствени отклонения, често срещан проблем с навивките. Тази промяна позволи на моделите от текст към изображение да се мащабират и подобряват надеждно, благодарение на добре разбраните свойства на мащабиране на трансформаторите.

Предизвикателства и решения при генерирането на изображения

Въпреки този напредък, контролируемостта при генерирането на изображения остава предизвикателство. Проблеми като бързо следване, при които моделът може да не се придържа плътно към въведения текст, са преобладаващи. За да се отговори на това, бяха предложени нови подходи като подобряване на надписите, насочени към подобряване на качеството на сдвояването на текст и изображения в наборите от данни за обучение.

Подобряване на надписите: Нов подход

Подобряването на надписите включва генериране на надписи с по-добро качество за изображения, което от своя страна помага при обучението на по-точни модели текст към изображение. Това се постига чрез надежден надпис за изображения, който създава подробни и точни описания на изображенията. Чрез обучение на тези подобрени надписи DALL-E 3 успяха да постигнат забележителни резултати, много наподобяващи снимки и произведения на изкуството, създадени от хора.

Обучението продължава Синтетични данни

Концепцията за обучение по синтетични данни не е нова. Въпреки това, уникалният принос тук е в създаването на нова, описателна система за надписи на изображения. Въздействието на използването на синтетични надписи за обучение на генеративни модели е значително, което води до подобрения в способността на модела да следва точно указанията.

Оценяване на DALL-E 3

Чрез множество оценки и сравнения с предишни модели като DALL-E 2 и Stable Diffusion XL, DALL-E 3 демонстрира превъзходна производителност, особено при задачи, свързани с бързо следване.

Сравнение на модели текст към изображение при различни оценки

Сравнение на модели текст към изображение при различни оценки

Използването на автоматизирани оценки и бенчмаркове предостави ясно доказателство за неговите възможности, затвърждавайки позицията му на най-съвременен генератор на текст към изображение.

Подкани и способности на DALL-E 3

DALL-E 3 предлага по-логичен и изискан подход за създаване на визуализации. Докато превъртате, ще забележите как DALL-E създава всяко изображение със смесица от точност и въображение, което резонира с дадената подкана.

За разлика от своя предшественик, тази подобрена версия се отличава с естественото подреждане на обекти в рамките на една сцена и точното изобразяване на човешки черти, до правилния брой пръсти на ръката. Подобренията обхващат по-фини детайли и вече са достъпни при по-висока разделителна способност, осигурявайки по-реалистичен и професионален резултат.

Възможностите за изобразяване на текст също са значително подобрени. Докато предишните версии на DALL-E създаваха безсмислен текст, DALL-E 3 сега може да генерира четливи и професионално оформени букви (понякога) и дори чисти лога понякога.

Разбирането на модела за сложни и нюансирани заявки за изображения е значително подобрено. DALL-E 3 вече може точно да следва подробни описания, дори в сценарии с множество елементи и специфични инструкции, демонстрирайки способността си да създава последователни и добре композирани изображения. Нека разгледаме някои подкани и съответния резултат, който получихме:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 изображения, базирани на текстови подкани

DALL-E 3 изображения, базирани на текстови подкани (обърнете внимание, че левият плакат има грешен правопис)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 изображения, базирани на текстови подкани

DALL-E 3 изображения, базирани на текстови подкани

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 изображения, базирани на текстови подкани

DALL-E 3 изображения, базирани на текстови подкани (обърнете внимание, че и двата плаката имат грешен правопис)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 изображения, базирани на текстови подкани

DALL-E 3 изображения, базирани на текстови подкани

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 изображения, базирани на текстови подкани

DALL-E 3 изображения, базирани на текстови подкани

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 изображения, базирани на текстови подкани

DALL-E 3 изображения, базирани на текстови подкани

Ограничения и риск от DALL-E 3

OpenAI предприе значителни стъпки за филтриране на изрично съдържание от данните за обучение на DALL-E 3, с цел намаляване на отклоненията и подобряване на изхода на модела. Това включва прилагането на специфични филтри за категории чувствително съдържание и преразглеждане на праговете за по-широки филтри. Стекът за смекчаване включва също няколко слоя предпазни мерки, като например механизми за отказ в ChatGPT за чувствителни теми, класификатори за бързо въвеждане за предотвратяване на нарушения на правилата, списъци за блокиране за конкретни категории съдържание и трансформации, за да се гарантира, че подканите съответстват на насоките.

Въпреки напредъка си, DALL-E 3 има ограничения в разбирането на пространствените връзки, прецизното изобразяване на дълъг текст и генерирането на специфични изображения. OpenAI признава тези предизвикателства и работи върху подобрения за бъдещи версии.

Компанията също така работи върху начини за разграничаване на генерираните от AI изображения от тези, направени от хора, отразявайки техния ангажимент за прозрачност и отговорно използване на AI.

ДАЛ Е

DALL E 3

DALL-E 3, най-новата версия, ще бъде достъпна на етапи, започвайки с конкретни групи клиенти и по-късно разширявайки се до изследователски лаборатории и API услуги. Все още обаче не е потвърдена дата за безплатно публично пускане.

OpenAI наистина поставя нов стандарт в областта на AI с DALL-E 3, свързвайки безпроблемно сложни технически възможности и удобни за потребителя интерфейси. Интегрирането на DALL-E 3 в широко използвани платформи като Bing отразява преминаването от специализирани приложения към по-широки, по-достъпни форми на забавление и полезност.

Истинската промяна в играта през следващите години вероятно ще бъде балансът между иновациите и овластяването на потребителите. Компаниите, които процъфтяват, ще бъдат тези, които не само разширяват границите на това, което AI може да постигне, но и предоставят на потребителите автономията и контрола, които желаят. OpenAI, със своя ангажимент към етичния AI, навигира внимателно по този път. Целта е ясна: да се създадат AI инструменти, които са не само мощни, но и надеждни и приобщаващи, като гарантират, че предимствата на AI са достъпни за всички.

Прекарах последните пет години, потапяйки се в завладяващия свят на машинното обучение и дълбокото обучение. Моята страст и опит ме накараха да допринеса за над 50 различни проекта за софтуерно инженерство, със специален фокус върху AI/ML. Продължаващото ми любопитство също ме насочи към обработката на естествен език, област, която нямам търпение да проуча по-нататък.