Промпт Енгинееринг

Ближи поглед на ОпенАИ-јев ДАЛЛ-Е 3

објављен

Пре КСНУМКС дан

Октобар КСНУМКС, КСНУМКС

У Генеративна АИ свет, у току са најновијим је назив игре. А када је у питању генерисање слика, Стабле Диффусион и Мидјоурнеи били платформа о којој су сви причали – до сада.

Представљен је ОпенАИ, који подржава технолошки гигант Мицрософт ДАЛЛ Е 3 КСНУМКСтх, КСНУМКС.

ДАЛЛ-Е 3 није само стварање слика; ради се о оживљавању ваших идеја, баш онако како сте их замислили. А најбољи део? Брзо је, као, стварно брзо. Имате идеју, дајте је на ДАЛЛ-Е 3, и бум, ваша слика је спремна.

Дакле, у овом чланку ћемо заронити дубоко у оно о чему је ДАЛЛ-Е 3. Разговараћемо о томе како функционише, шта га издваја од осталих и зашто би то могао бити алат за који нисте знали да вам је потребан. Без обзира да ли сте дизајнер, уметник или само неко са много кул идеја, пожелећете да останете око овога. Хајде да почнемо.

Оно што је ново код ДАЛЛ·Е 3 је да добија контекст много боље од ДАЛЛ·Е 2. Раније верзије су можда пропустиле неке појединости или занемариле неколико детаља ту и тамо, али ДАЛЛ·Е 3 је на месту. Он узима у обзир тачне детаље онога што тражите, дајући вам слику која је ближа ономе што сте замислили.

Кул део? ДАЛЛ·Е 3 и ЦхатГПТ су сада интегрисани заједно. Они раде заједно како би побољшали ваше идеје. Ви снимате концепт, ЦхатГПТ помаже у фином подешавању одзивника, а ДАЛЛ·Е 3 га оживљава. Ако нисте љубитељ слике, можете замолити ЦхатГПТ да подеси упит и натерати ДАЛЛ·Е 3 да покуша поново. За месечну накнаду од 20$, добијате приступ ГПТ-4, ДАЛЛ·Е 3 и многим другим сјајним функцијама.

Мицрософт'с Бинг Цхат ДАЛЛ·Е 3 је добио у руке чак и пре ОпенАИ-овог ЦхатГПТ-а, а сада нису само велика предузећа већ сви који могу да се играју са њим бесплатно. Интеграција у Бинг Цхат и Бинг Имаге Цреатор чини много лакшим за коришћење свима.

Успон модела дифузије

У последње 3 године, визуелна АИ је била сведок пораста модела дифузије, чинећи значајан корак напред, посебно у генерисању слика. Пре дифузионих модела, Генеративне адверсаријске мреже (ГАН) били су основна технологија за генерисање реалистичних слика.

ГАН -ови

Међутим, они су имали свој део изазова, укључујући потребу за огромним количинама података и рачунарске снаге, што их је често чинило тешким за руковање.

унети радиодифузија модели. Они су се појавили као стабилнија и ефикаснија алтернатива ГАН-овима. За разлику од ГАН-а, модели дифузије раде тако што додају шум подацима, прикривајући их док не остане само случајност. Затим раде уназад да би преокренули овај процес, реконструишући значајне податке из буке. Овај процес се показао ефикасним и мање интензиван према ресурсима, због чега су модели дифузије врућа тема у заједници АИ.

Права прекретница наступила је око 2020. године, са серијом иновативних радова и увођењем ОпенАИ-јев ЦЛИП технологија, која је значајно унапредила могућности дифузионих модела. Ово је учинило моделе дифузије изузетно добрим у синтези текста у слику, омогућавајући им да генеришу реалистичне слике из текстуалних описа. Овај напредак није био само у генерисању имиџа, већ иу областима као што су музичка композиција биомедицинска истраживања.

Данас, модели дифузије нису само тема од академског интересовања, већ се користе у практичним сценаријима из стварног света.

Генеративно моделирање и слојеви самопажње: ДАЛЛ-Е 3

извор

Један од критичних напретка у овој области је еволуција генеративног моделирања, са приступима заснованим на узорковању као што су ауторегресивно генеративно моделирање и процеси дифузије који предњаче. Они су трансформисали моделе текста у слику, што је довело до драстичног побољшања перформанси. Разбијањем генерисања слике на дискретне кораке, ови модели су постали лакши за учење и неуронским мрежама их је лакше научити.

Паралелно, употреба слојева самопажње одиграла је кључну улогу. Ови слојеви, сложени заједно, помогли су у генерисању слика без потребе за имплицитним просторним пристрасностима, што је уобичајен проблем са конволуцијама. Ова промена је омогућила моделима текста у слику да се скалирају и поуздано побољшају, због добро схваћених својстава скалирања трансформатора.

Изазови и решења у генерисању слика

Упркос овим напретцима, контрола генерисања слика остаје изазов. Преовладавала су питања као што је брзо праћење, где се модел можда не придржава унетог текста. Да би се ово решило, предложени су нови приступи као што је побољшање натписа, који имају за циљ побољшање квалитета упаривања текста и слика у скуповима података за обуку.

Побољшање натписа: нови приступ

Побољшање натписа укључује генерисање титлова бољег квалитета за слике, што заузврат помаже у обучавању прецизнијих модела текста у слику. Ово се постиже помоћу робусног описивача слика који даје детаљне и тачне описе слика. Обуком на овим побољшаним натписима ДАЛЛ-Е 3 је успео да постигне изванредне резултате, који су веома слични фотографијама и уметничким делима које су направили људи.

Траининг он Синтетички подаци

Концепт обуке о синтетичким подацима није нов. Међутим, јединствени допринос овде је у стварању новог, описног система натписа слика. Утицај коришћења синтетичких натписа за обуку генеративних модела је био значајан, што је довело до побољшања способности модела да тачно прати упутства.

Процена ДАЛЛ-Е 3

Кроз вишеструке процене и поређења са претходним моделима као што су ДАЛЛ-Е 2 и Стабле Диффусион КСЛ, ДАЛЛ-Е 3 је показао супериорне перформансе, посебно у задацима који се односе на брзо праћење.

Поређење модела текст-слика на различитим евалуацијама

Употреба аутоматизованих евалуација и мерила је пружила јасне доказе о његовим могућностима, учвршћујући његову позицију као најсавременијег генератора текста у слику.

ДАЛЛ-Е 3 Упутства и могућности

ДАЛЛ-Е 3 нуди логичнији и префињенији приступ креирању визуелних приказа. Док се крећете, приметићете како ДАЛЛ-Е прави сваку слику, са мешавином тачности и маште која резонује са датим упитом.

За разлику од свог претходника, ова надограђена верзија истиче се у природном распореду објеката унутар сцене и прецизном приказивању људских особина, све до тачног броја прстију на руци. Побољшања се протежу на финије детаље и сада су доступна у вишој резолуцији, осигуравајући реалистичнији и професионалнији резултат.

Могућности приказивања текста такође су значајно побољшане. Тамо где су претходне верзије ДАЛЛ-Е произвеле бесмислице, ДАЛЛ-Е 3 сада може да генерише читљива и професионално стилизована слова (понекад), па чак и чисте логотипе повремено.

Моделово разумевање сложених и нијансираних захтева за слику је значајно побољшано. ДАЛЛ-Е 3 сада може тачно да прати детаљне описе, чак иу сценаријима са више елемената и специфичним упутствима, демонстрирајући своју способност да производи кохерентне и добро компоноване слике. Хајде да истражимо неке упите и одговарајући излаз који смо добили:

Design the packaging for a line of organic teas. Include space for the product name and description.

ДАЛЛ-Е 3 слике засноване на текстуалним упитима (имајте на уму да је леви постер погрешно написан)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

ДАЛЛ-Е 3 слике засноване на текстуалним упитима

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

ДАЛЛ-Е 3 слике засноване на текстуалним упитима (имајте на уму да су оба постера погрешно написана)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

ДАЛЛ-Е 3 слике засноване на текстуалним упитима

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

ДАЛЛ-Е 3 слике засноване на текстуалним упитима

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

ДАЛЛ-Е 3 слике засноване на текстуалним упитима

Ограничења и ризик од ДАЛЛ-Е 3

ОпенАИ је предузео значајне кораке да филтрира експлицитни садржај из података о обуци ДАЛЛ-Е 3, са циљем да смањи предрасуде и побољша резултате модела. Ово укључује примену специфичних филтера за категорије осетљивог садржаја и ревизију прагова за шире филтере. Група за ублажавање такође укључује неколико слојева заштите, као што су механизми одбијања у ЦхатГПТ-у за осетљиве теме, брзи класификатори уноса да би се спречила кршења смерница, листе блокирања за одређене категорије садржаја и трансформације како би се осигурало да су упити усклађени са смерницама.

Упркос свом напретку, ДАЛЛ-Е 3 има ограничења у разумевању просторних односа, прецизном приказивању дугог текста и генерисању специфичних слика. ОпенАИ признаје ове изазове и ради на побољшањима за будуће верзије.

Компанија такође ради на начинима да разликује слике генерисане вештачком интелигенцијом од оних које праве људи, што одражава њихову посвећеност транспарентности и одговорној употреби вештачке интелигенције.

ДАЛЛ Е 3

ДАЛЛ-Е 3, најновија верзија, биће доступна у фазама почевши од одређених група купаца, а касније се проширивши на истраживачке лабораторије и АПИ услуге. Међутим, датум бесплатног јавног објављивања још није потврђен.

ОпенАИ заиста поставља нови стандард у области вештачке интелигенције са ДАЛЛ-Е 3, беспрекорно премошујући сложене техничке могућности и интерфејсе прилагођене кориснику. Интеграција ДАЛЛ-Е 3 у широко коришћене платформе као што је Бинг одражава прелазак са специјализованих апликација на шире, приступачније облике забаве и корисности.

Права промена игре у наредним годинама вероватно ће бити равнотежа између иновација и оснаживања корисника. Компаније које напредују биће оне које не само да померају границе онога што вештачка интелигенција може да постигне, већ ће корисницима пружити аутономију и контролу коју желе. ОпенАИ, са својом посвећеношћу етичкој вештачкој интелигенцији, пажљиво се креће овим путем. Циљ је јасан: створити АИ алате који нису само моћни, већ и поуздани и инклузивни, осигуравајући да су предности АИ доступне свима.

Не пропустите

Брзо хаковање и злоупотреба ЛЛМ-а

Ааиусх Миттал

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.

Уните.АИ

Ближи поглед на ОпенАИ-јев ДАЛЛ-Е 3

Промпт Енгинееринг

Ближи поглед на ОпенАИ-јев ДАЛЛ-Е 3

Преглед садржаја

Успон модела дифузије

Генеративно моделирање и слојеви самопажње: ДАЛЛ-Е 3

Изазови и решења у генерисању слика

Побољшање натписа: нови приступ

Траининг он Синтетички подаци

Процена ДАЛЛ-Е 3

ДАЛЛ-Е 3 Упутства и могућности

Ограничења и ризик од ДАЛЛ-Е 3

Последње објаве

Уните.АИ

Ближи поглед на ОпенАИ-јев ДАЛЛ-Е 3

Преглед садржаја

Успон модела дифузије

Генеративно моделирање и слојеви самопажње: ДАЛЛ-Е 3

Изазови и решења у генерисању слика

Побољшање натписа: нови приступ

Траининг он Синтетички подаци

Процена ДАЛЛ-Е 3

ДАЛЛ-Е 3 Упутства и могућности

Ограничења и ризик од ДАЛЛ-Е 3

Можда вам се свидја

Последње објаве