إشترك

اخر أخبار الذكاء الإصطناعي: وأخيرا تم إصدار الذكاء الخارق GPT-4o الذي سيغير كل شيء من حولنا

 أطلقت شركة OpenAI نموذجها الرئيسي الجديد، GPT-4O، الذي يتميز بتكامل سلس بين المدخلات والمخرجات الصوتية والبصرية، مما يعد خطوة نحو تعزيز تجربة التفاعل مع الآلة بشكل طبيعي.

تم تصميم GPT-4O، حيث يشير الحرف "O" إلى "Omni"، ليتماشى مع مجموعة أوسع من طرق الإدخال والمخرجات. وأشارت OpenAI إلى أنه "يقبل أي مجموعة من النصوص والصوت والصور وينشئ أي مجموعة من المخرجات النصية والصوتية والبصرية".

وبحسب الإعلان الرسمي، يمكن للمستخدمين التوقع استجابة بسرعة تصل إلى 232 ميلي ثانية، مما يعكس سرعة المحادثة البشرية، مع متوسط زمن استجابة يبلغ 320 ميلي ثانية، مما يعزز تجربة المستخدم بشكل لافت.

يتمثل الابتكار الرئيسي في GPT-4O في قدرته على معالجة جميع المدخلات والمخرجات من خلال شبكة عصبية واحدة، مما يسمح بالاحتفاظ بالمعلومات والسياق الهامة التي قد تضيع في خطوط النماذج المنفصلة المستخدمة في الإصدارات السابقة.

قبل ظهور GPT-4O، كان "وضع الصوت" يتطلب زمنًا يصل إلى 2.8 ثانية لـ GPT-3.5 و 5.4 ثانية لـ GPT-4. هذا التفتيت أدى إلى فقدان الفروق الدقيقة مثل النغمة والمكبرات الصوتية المتعددة والضوضاء الخلفية.

كحل متكامل، يتضمن GPT-4O تحسينات ملحوظة في فهم الرؤية والصوت، مما يمكنه من أداء مهام أكثر تعقيدًا مثل تنسيق الأغاني وتوفير ترجمات في الوقت الفعلي وحتى إنشاء مخرجات تحتوي على عناصر تعبيرية مثل الضحك والغناء. وتشمل أمثلة قدراته الواسعة إعداد المقابلات وترجمة اللغات أثناء السفر وتقديم ردود استجابة لخدمة العملاء.


Sam Altman

علق ناثانيل ويتيمور ، مؤسس ورئيس التنفيذي لشركة SuperIntyligent: ستكون إعلانات المنتجات بطبيعتها أكثر انقسامًا من إعلانات التكنولوجيا لأنه من الصعب معرفة ما إذا كان المنتج مختلفًا حقًا حتى تتفاعل معه فعليًا. وخاصة عندما يتعلق الأمر بوضع مختلف للتفاعل بين الإنسان والحاسوب ، هناك مجال أكبر للمعتقدات المتنوعة حول مدى فائدة ذلك.

ومع ذلك ، فإن حقيقة أنه لم يكن هناك GPT-4.5 أو GPT-5 الذي تم الإعلان عنه أيضًا يصرف انتباه الأشخاص عن التقدم التكنولوجي بأن هذا نموذج متعدد الوسائط أصلاً. إنه ليس نموذجًا نصيًا مع إضافة صوت أو صورة ؛ إنه رمز متعدد الوسائط في ، رمز متعدد الوسائط خارج. هذا يفتح مجموعة كبيرة من حالات الاستخدام التي ستستغرق بعض الوقت لتصفية الوعي ".

الأداء والسلامة

يطابق GPT-4O مستويات أداء GPT-4 Turbo في مهام النص والترميز الإنجليزي ولكن يتفوق بشكل كبير على اللغات غير الإنجليزية ، مما يجعله نموذجًا أكثر شمولاً وتنوعًا. إنه يحدد معيارًا جديدًا في التفكير مع درجة عالية قدرها 88.7 ٪ على MMLU COT (أسئلة المعرفة العامة) و 87.2 ٪ على MMLU 5 طلقات.

يتفوق النموذج أيضًا في معايير الصوت والترجمة ، متجاوزًا النماذج الحديثة السابقة مثل Whisper-V3. في التقييمات متعددة اللغات والرؤية ، فإنه يوضح الأداء المتفوق ، ويعزز إمكانيات Openai متعددة اللغات والصوت والرؤية.

إرسال تعليق