أصدرت شركة “أوبن إيه آي” دراسة بحثية حديثة كشفت عن معيار جديد لتقييم أداء نماذج الذكاء الاصطناعي في المهام العملية اليومية، تحت اسم GDPVal. وقد طور فريق الأبحاث الاقتصادية بالشركة هذا المقياس لاختبار النماذج عبر سيناريوهات عمل حقيقية، ومقارنة نتائجها مباشرة بأداء بشر محترفين في 44 مهنة متنوعة تشمل القطاعات الحكومية والصحية والخدمات الاجتماعية.
ويمثل GDPVal خطوة نوعية تتجاوز الاختبارات الأكاديمية التقليدية أو اختبارات المعرفة النظرية، إذ يعتمد على مهام يومية فعلية مثل كتابة البريد المهني، الرد على العملاء الغاضبين، تحسين الجداول الزمنية، وتدقيق الأسعار، ما يجعله أقرب إلى قياس “المنفعة العملية” للنماذج في بيئات العمل الواقعية.
إقرأ ايضاً:
وزارة الموارد البشرية تعلن مفاجأة .. سر الوثيقة التي تفتح أبواب الدخل الإضافي لآلاف المواطنين"آبل" تفاجئ العالم بصفقة قيمتها مليار دولار مع "جوجل".. السر وراء مستقبل سيري الجديد"سناب شات" تفاجئ الأسواق.. دمج محرك البحث التفاعلي في الدردشة يرفع الأسهم 14%!"واتساب" يفاجئ المستخدمين.. ميزة جديدة ستغيّر طريقة التواصل إلى الأبدتحذير طبي جديد.. 5 أطعمة شائعة لا تخلطها مع البيض أبدًا وإلا ستدفع الثمن!نجم سعودي يلفت أنظار رينارد والهلال معًا.. خطوة مفاجئة تغيّر مسار مسيرته!وأظهرت الدراسة تفوق نموذج “كلود أوبس 4.1” من شركة “آنثروبيك” في الاستخدام اليومي، حيث تخطى أداء الخبراء البشر في 47.6% من المهام العملية، متفوقًا على “شات جي بي تي 5” الذي سجل 38.8%، و“جيميناي 2.5 برو” عند 25.5%، و“غروك 4” بنسبة 24.3%. ويعني هذا التفوق أن نموذج “كلود” لا يتميز بالدقة اللغوية فقط، بل أيضًا في جودة المخرجات تحت قيود الوقت والسياق، مع أفضلية في 8 من أصل 9 صناعات تم اختبارها، خصوصًا في المهام التي تتطلب حسًا مهنيًا، وضبطًا للنبرة، وقرارات تحريرية دقيقة تقلل الحاجة للتدخل البشري.
وتعكس الدراسة نهج “أوبن إيه آي” في تقييم النماذج المنافسة خارج نطاق المختبر، مع التركيز على الاستخدام الواقعي. وقد سبقت هذه الدراسة أبحاث سلوكية كبرى حللت أنماط استخدام “شات جي بي تي” على مدى أكثر من عام، وأظهرت أن الاستخدامات غير المهنية نمت بوتيرة أسرع، بينما تهيمن ثلاثة مسارات رئيسية على التفاعلات: الإرشاد العملي، البحث عن المعلومات، والكتابة، ما يوضح دور النماذج كوكيل مساعد يومي لاتخاذ القرارات الصغيرة والمتكررة.
وتشير النتائج إلى أن التفوق على البشر في نصف المهام تقريبًا لا يعني الاستبدال، بل يعكس زيادة في الإنتاجية عند الدمج الصحيح، خاصة في وظائف المعرفة التي تشمل تحرير المسودات، تلخيص المراسلات، ونقل نبرة العلامة التجارية في خدمة العملاء، مع التأكيد على أهمية الحوكمة والشفافية ومعايير السلامة لتفادي الانحيازات وسوء الاستخدام.
وعلى صعيد المنتجات، تضيف “أوبن إيه آي” قدرات معاملاتية إلى “شات جي بي تي”، مثل الشراء عبر متاجر رقمية، مع ميزات رقابة أبوية للمراهقين، مما يمنح النموذج وظائف متعددة من الكتابة إلى التجارة الإلكترونية. وبالرغم من تصدر “كلود” للمعيار في هذه الدراسة، فإن سباق التطوير مستمر وقد يغير ترتيب النماذج مستقبلاً.
في المحصلة، يمثل GDPVal خطوة نوعية لنقل تقييم نماذج الذكاء الاصطناعي من الاختبارات الأكاديمية إلى ميادين العمل، مع التركيز على الملاءمة العملية والتكامل مع فرق العمل، مما يقدم خريطة أولية لصناع القرار لاختيار النموذج الأنسب بحسب الصناعة والنطاق اللغوي ومتطلبات النبرة، مع ضرورة استمرار الاختبارات الأمنية والأخلاقية لضمان تبني مسؤول ومستدام للذكاء الاصطناعي.