GPT-4o: OpenAI-јева револуција у генерисању вештачке интелигенције са савршеним рендеровањем текста

Konrad Wolfenstein

Пре 1 године

GPT-4o: OpenAI-јева револуција у генерисању вештачке интелигенције са савршеним приказивањем текста – Слика: Xpert.Digital

GPT-4o: Прецизан текст на сликама захваљујући новој AI технологији

OpenAI поставља прекретницу у развоју мултимодалне вештачке интелигенције

OpenAI је постигао значајан пробој у генерисању слика помоћу вештачке интелигенције са својим новим GPT-4o моделом. Једна од најзначајнијих могућности модела је прецизно приказивање текста унутар генерисаних слика – проблем који је често представљао велике изазове за претходне генераторе слика помоћу вештачке интелигенције. Ова иновација означава значајан напредак у мултимодалној вештачкој интелигенцији и отвара нове могућности примене за креативце и предузећа.

Револуција у приказивању текста у сликама генерисаним вештачком интелигенцијом

Дугогодишњи проблем са сликама генерисаним вештачком интелигенцијом био је нетачно приказивање текста. Претходни модели су често производили чудне комбинације знакова или нечитљиве одломке текста, што је значајно ограничавало њихову примену. Са GPT-4o, OpenAI је сада представио решење које приказује текст са импресивном тачношћу – од руком писаних белешки и знакова до сложених инфографика и логотипа.

Побољшање је засновано на изворној мултимодалној архитектури GPT-4o. За разлику од претходних система, који су користили одвојене моделе за текст и слике, GPT-4o обрађује све модалитете у једном моделу. Ова интеграција елиминише губитак информација који се раније јављао приликом превођења између различитих модела и омогућава кохерентнију обраду концепата слика и текстуалног садржаја.

Задатак: Направите слику ширине 1456 пиксела и односа ширине и висине 16:9 на тему: GPT-4o – Хуманоидни робот пише „староенглеским“ писмом на Берлинском зиду: РЕВОЛУЦИЈА!

Напредне вештине и технолошке основе

GPT-4o је трениран на комбинацији слика и текста, што је омогућило моделу да научи не само како се слике односе на језик, већ и како се слике односе једна на другу. Ово омогућава дубље контекстуално разумевање и прецизније генерисање слика које је у складу са захтевима корисника.

Изузетан технички напредак је способност модела да истовремено обрађује до 20 различитих објеката и прецизно представља њихове односе. Ово резултира знатно кохерентнијим сценама и омогућава сложеније визуелне наративе. Конзистентност слике је знатно већа него код претходних модела попут DALL-E 3, иако још увек није савршена – повремено се детаљи попут раста косе ликова могу мало померити.

Учење у контексту и трансформација слика

Још једна иновативна карактеристика је „учење у контексту“, где GPT-4o може да анализира слике које су отпремили корисници и да укључи њихове детаље у нове генерације слика. Ово омогућава, на пример, креативну трансформацију ручно цртаних илустрација или прилагођавање постојећих слика специфичним захтевима.

Практичне примене у природном разговору

Интегрисање генерисања слика у конверзациони модел GPT-4o трансформише начин на који корисници интерагују са вештачком интелигенцијом (AI) генераторима слика. Уместо изолованих уноса у директним потезима, слике сада могу да се појављују и усавршавају у оквиру природних разговора.

Овај приступ оријентисан на дијалог омогућава итеративни рад на сликама. Корисници могу узети генерисану слику као почетну тачку, а затим захтевати одређене измене, као што су „Потамни небо“ или „Додај црвени балон“. Систем одржава контекст током више рунди дијалога, чинећи уређивање и подешавање слика знатно интуитивнијим.

Примери примене са савршеним приказивањем текста

Побољшани приказ текста сада омогућава креирање:

Визит карте са исправно приказаним контакт подацима
Инфографике са читљивим ознакама и дијаграмима
Логотипи са прецизним словима и хексадецималним бојама
Слајдови презентације са транспарентном позадином
Графика друштвених медија са интегрисаним порукама

У тесту који је користио рукописно писану песму из дневника, GPT-4o је показао знатно боље резултате од упоредивих модела. Његова способност да прецизно прикаже чак и дуже блокове текста издваја GPT-4o од конкуренције попут Midjourney-ја или Adobe Firefly-ја, који се истичу у фотореалистичном приказивању, али се муче са интеграцијом текста.

У вези са овим:

GPT-4.5 наспрам GPT-4: Интелигентније, природније, креативније? По чему се GPT-4.5 разликује од GPT-4?

Увођење и доступност

OpenAI је почео да уводи своју нову функцију генерисања слика различитим корисничким групама. Тренутно, корисници са ChatGPT Plus, Pro, Teams и Free налозима имају приступ овој функцији, мада корисници бесплатне верзије треба да очекују ограничења у броју слика које могу да генеришу. Enterprise и Education корисници ће их накнадно уследити.

DALL-E ће остати доступан као засебна опција путем наменске GPT ознаке, али више неће бити подразумевани генератор слика у ChatGPT-у. Приступ API-ју за програмере се очекује у наредним недељама.

Безбедносне мере и границе

OpenAI опрема све слике генерисане помоћу GPT-4o C2PA метаподацима који идентификују њихово вештачко интелигенцијско порекло. Ове информације о пореклу су део напора да се створи транспарентност у вези са садржајем генерисаним вештачком интелигенцијом и спречи потенцијална злоупотреба.

Генерални директор компаније OpenAI, Сем Алтман, наглашава да је нови генератор слика намењен да корисницима пружи већу слободу у креирању слика, са мање одбијања садржаја. Истовремено, компанија жели да „поштује веома широке границе које ће друштво на крају поставити за вештачку интелигенцију“.

Упркос импресивном напретку, GPT-4o и даље има нека ограничења:

Повремено погрешно обрезивање слика
Могуће халуцинације сличне онима које се доживљавају са текстуалним моделима
Тешкоће у истовременом представљању многих различитих концепата
Нетачан приказ текста у писмима која нису латинична

Прекретница са будућим потенцијалом

Интеграција моћне функције генерисања слика са прецизним приказивањем текста у GPT-4o означава значајну прекретницу у развоју мултимодалних AI система. Могућност прецизног приказивања текста на сликама решава један од најистакнутијих проблема претходних AI генератора слика и отвара нове креативне и комерцијалне могућности примене.

GPT-4o-ова изворна мултимодалност, где један модел обрађује све модалитете, указује на пут којим ће се системи вештачке интелигенције кретати у будућности. Уместо развоја изолованих могућности у различитим системима, крећемо се ка интегрисаним моделима који могу беспрекорно да комбинују различите облике комуникације и репрезентације.

Иако GPT-4o већ показује импресиван напредак у синтези текста у слику, остаје да се види како ће се ова технологија развијати, посебно у погледу нелатиничних писма и сложенијих визуелних концепата. Континуирано унапређење ових могућности могло би довести до још интуитивнијих и свестранијих вештачких асистената, фундаментално трансформишући наш креативни и комуникативни рад.

У вези са овим:

Ваш глобални партнер за маркетинг и развој пословања

☑️ Наш пословни језик је енглески или немачки

☑️ НОВО: Преписка на вашем матерњем језику!

Konrad Wolfenstein

Ја и мој тим смо срећни што вам можемо бити на располагању као ваш лични саветник.

Можете ме контактирати попуњавањем контакт форме овде wolfenstein@xpert.digital:или ме једноставно позовите на +49 7348 4088 965. Моја имејл адреса је

Радујем се нашем заједничком пројекту.

GPT-4o: OpenAI-јева револуција у генерисању вештачке интелигенције са савршеним рендеровањем текста

GPT-4o: Прецизан текст на сликама захваљујући новој AI технологији

OpenAI поставља прекретницу у развоју мултимодалне вештачке интелигенције