GPT-4O: نصوص دقيقة في الصور بفضل تقنية الذكاء الاصطناعي الجديد
Openai يضع علامة فارقة في تطوير الذكاء الاصطناعي متعدد الوسائط
مع نموذج GPT 4O الجديد ، حقق Openai اختراقًا كبيرًا في توليد صور الذكاء الاصطناعي. واحدة من أبرز المهارات في النموذج هي التمثيل الدقيق للنص ضمن الصور التي تم إنشاؤها-مشكلة في كثير من الأحيان تقدم مولدات الصور السابقة من الذكاء الاصطناعي مع تحديات كبيرة. يمثل هذا الابتكار تقدمًا مهمًا في تقنية الذكاء الاصطناعي متعدد الوسائط ويفتح تطبيقات جديدة للإبداع والشركات.
ثورة النص الذي تم إنشاؤه في الصور التي تم إنشاؤها
كانت هناك مشكلة طويلة الأجل مع الصور التي تم إنشاؤها من الذكاء الاصطناعي هي العرض الخاطئ للنص. غالبًا ما أنتجت النماذج السابقة مجموعات غريبة من المقاطع النصية أو غير مقروءة ، والتي تقيد الاستخدامات الممكنة بشكل كبير. مع GPT-4O ، قدمت Openaai الآن حلًا يمثل نصًا في الدقة المثيرة للإعجاب من الملاحظات المكتوبة بخط اليد إلى العلامات على الرسوم البيانية والشعارات المعقدة.
يعتمد التحسن على الهندسة المعمارية متعددة الوسائط الأصلية لـ GPT-4O. على عكس الأنظمة السابقة التي كانت فيها النماذج المنفصلة مسؤولة عن النص والصورة ، تقوم GPT-4O بمعالجة جميع الطرائق في نموذج واحد. يزيل هذا التكامل خسائر المعلومات التي حدثت مسبقًا بين النماذج المختلفة وتمكين معالجة أكثر تماسكًا لمفاهيم الصور ومحتوى النص.
- موجه: احصل على صورة مع عرض 1456 بكسل ونسبة صورة من 16: 9 حول الموضوع: GPT-4O-A Humanoid Robot يكتب بخط "اللغة الإنجليزية القديمة" إلى جدار برلين: الثورة!
المهارات الممتدة والمؤسسات التكنولوجية
تم تدريب GPT-4O مع مجموعة من الصور والنصوص ، والتي لم تتعلم النموذج فقط كيف ترتبط الصور باللغة ، ولكن أيضًا كيف ترتبط الصور ببعضها البعض. يتيح ذلك الفهم الأعمق للسياق وتوليد الصور الأكثر دقة ، وهو ما يتسق مع متطلبات المستخدم.
تقدم التقدم التقني الرائع هو قدرة النموذج على معالجة ما يصل إلى 20 كائنًا مختلفًا في نفس الوقت وتقديم علاقاتهم مع بعضها البعض بشكل صحيح. هذا يؤدي إلى مشاهد أكثر تماسكًا ويمكّن الروايات المرئية الأكثر تعقيدًا. يكون تناسق الصورة أعلى بكثير مما هو عليه في النماذج السابقة مثل Dall-E 3 ، وإن لم يكن التفاصيل المثالية حتى الآن يمكن أن تتغير بسهولة في الشخصيات.
التعلم داخل السياق وتحويل الصور
وظيفة مبتكرة أخرى هي "التعلم داخل السياق" ، حيث يمكن لـ GPT-4O تحليل الصور التي تم تحميلها بواسطة المستخدم ودمج تفاصيله في أجيال صور جديدة. يتيح ذلك ، على سبيل المثال ، التحول الإبداعي للرسومات اليدوية أو تكييف الصور الموجودة وفقًا لمتطلبات محددة.
التطبيقات العملية في المحادثة الطبيعية
يقوم دمج توليد الصور في نموذج المحادثة لـ GPT-4O بتحويل الطريقة التي يتفاعل بها المستخدمون مع مولدات صور الذكاء الاصطناعى. بدلاً من الإدخالات السريعة المعزولة ، يمكن الآن إنشاء الصور وتحسينها في المحادثات الطبيعية.
يتيح هذا النهج الموجه للحوار العمل التكراري على الصور. يمكن للمستخدمين التقاط صورة تم إنشاؤها كنقطة انطلاق ثم يطلبون تغييرات محددة ، مثل "اجعل السماء أغمق" أو "إضافة بالون أحمر". يحتفظ النظام بالسياق عبر عدة حوارات ، مما يجعل معالجة الصور وتعديلها أكثر سهولة.
أمثلة التطبيق مع تقديم النص المثالي
يتيح عرض النص المحسن الآن إنشاء:
- بطاقات العمل مع تفاصيل الاتصال المعروضة بشكل صحيح
- الرسوم البيانية مع ملصقات قابلة للقراءة
- شعارات ذات حروف دقيقة وألوان سداسية عشرية
- أفلام العرض بخلفية شفافة
- رسومات وسائل التواصل الاجتماعي مع رسائل متكاملة
في اختبار مع قصيدة مكتوبة بخط اليد من يوميات ، تبين أن GPT-4O توفر نتائج أفضل بكثير من النماذج المماثلة. إن القدرة على إعادة إنتاج كتل نصية أطول بشكل صحيح تصور GPT-4O من منافسين مثل Midjourney أو Adobe Firefly ، والتي تكون قوية في تمثيلات واقعية للصور ، ولكنها تضعف عند تكامل النص.
مناسب ل:
المتداول والتوافر
بدأ Openai في طرح وظيفة توليد الصور الجديدة تدريجياً لمجموعات المستخدمين المختلفة. حاليًا ، يمكن للمستخدمين الوصول إلى الوظيفة مع chatgpt plus و pro و pro و team وحسابات مجانية ، حيث يجب على مستخدمي الإصدار المجاني أن يتوقعوا قيودًا على عدد الصور القابلة للإنشاء. يجب على عملاء Enterprise و EDU متابعة لاحقًا.
يظل Dall-E متاحًا كخيار منفصل عبر GPT خاص ، ولكن لن يكون مولد الصور القياسي في ChatGPT. يجب أن يتبع وصول API للمطورين في الأسابيع المقبلة.
التدابير الأمنية والحدود
يقوم Openai بتجهيز جميع الصور التي تم إنشاؤها باستخدام GPT-4O مع بيانات تعريف C2PA التي تميز أصل الذكاء الاصطناعي. تعد معلومات المصدر هذه جزءًا من الجهود المبذولة لخلق الشفافية فيما يتعلق بالمحتوى الذي تم إنشاؤه من الذكاء الاصطناعي ومنع سوء المعاملة المحتملة.
يؤكد Sam Altman ، الرئيس التنفيذي لشركة Openai ، على أن مولد الصور الجديد يجب أن يمنح المستخدمين مزيدًا من الحرية في توليد الصور ، مع وجود عدد أقل من الإنكار للمحتوى. في الوقت نفسه ، تريد الشركة "احترام الحدود الطويلة للغاية التي سيقوم بها المجتمع في نهاية المطاف بمنظمة العفو الدولية".
على الرغم من التقدم المثير للإعجاب ، لا يزال لدى GPT-4O بعض الحدود:
- في بعض الأحيان قطع خاطئ من الصور
- الهلوسة المحتملة مماثلة لنماذج النص
- الصعوبات في تقديم العديد من المفاهيم المميزة في نفس الوقت
- تمثيل غير دقيق للنص في كتابات غير لاتين
علامة فارقة مع إمكانات مستقبلية
يمثل دمج وظيفة توليد الصور القوية مع تقديم النص الدقيق في GPT-4O علامة فارقة في تطوير أنظمة AI متعددة الوسائط. إن القدرة على تقديم النص بشكل صحيح في الصور يحل واحدة من أكثر المشكلات العنيدة لمولدات صور الذكاء الاصطناعى السابقة وتفتح تطبيقات إبداعية وتجارية جديدة.
تشير الوسائط المتعددة الأصلية لـ GPT-4O ، والتي يكون فيها نموذج واحد مسؤولاً عن جميع الطرائق ، إلى الطريقة التي ستتخذه أنظمة الذكاء الاصطناعي في المستقبل. بدلاً من تطوير مهارات معزولة في أنظمة مختلفة ، نتحرك نحو نماذج متكاملة يمكنها الجمع بين أشكال مختلفة من الاتصالات والعرض بسلاسة.
على الرغم من أن GPT-4O يظهر بالفعل تقدمًا مثيرًا للإعجاب في تخليق صورة النص ، إلا أنه يبقى أن نرى كيف ستتطور هذه التكنولوجيا ، خاصة فيما يتعلق بالكتابات غير اللاتينية والمفاهيم البصرية الأكثر تعقيدًا. يمكن أن يؤدي التحسين المستمر لهذه المهارات إلى مساعدي الذكاء الاصطناعى الأكثر سهولة وتنوعا الذين يغيرون عملنا الإبداعي والتواصل بشكل أساسي.
مناسب ل:
شريكك العالمي في التسويق وتطوير الأعمال
☑️ لغة العمل لدينا هي الإنجليزية أو الألمانية
☑️ جديد: المراسلات بلغتك الوطنية!
سأكون سعيدًا بخدمتك وفريقي كمستشار شخصي.
يمكنك الاتصال بي عن طريق ملء نموذج الاتصال أو ببساطة اتصل بي على +49 89 89 674 804 (ميونخ) . عنوان بريدي الإلكتروني هو: ولفنشتاين ∂ xpert.digital
إنني أتطلع إلى مشروعنا المشترك.