تُعد مهمة تلخيص النتائج العلمية المعقدة لجمهور غير متخصص من أبرز المهام اليومية للصحفي العلمي. وقد أظهرت الدراسات أن استخدام نماذج اللغة الكبيرة، مثل تلك التي تشغل روبوتات الدردشة، يعد من أفضل الطرق لإعداد ملخصات للنصوص العلمية المعقدة.
في هذا الإطار، أجرى فريق الجمعية الأميركية لتقدم العلوم تجربة غير رسمية استمرت عامًا كاملًا، بهدف تقييم قدرة شات جي بي تي على إنتاج ملخصات موجزة تشبه تلك التي يعدها فريق SciPak لمجلة Science. هذه الملخصات تهدف إلى نقل المعلومات الأساسية للصحفيين الآخرين، بما في ذلك فرضية الدراسة، المنهجية، والسياق.
إقرأ ايضاً:
الزكاة تفاجئ المستوردين .. السر وراء إعفاء قطع الكمبيوتر من الرسوم الجمركية"تحديث آبل الجديد" يكشف الحقيقة.. 50 ثغرة كانت تهدد كل مستخدم آيفون! "أوبن أيه آي" تتحرك بسرعة لطمأنة المستثمرين بعد ضجة التصريحات المالية"سام ألتمان" يصدم العالم.. هل سيقوده الذكاء الاصطناعي يومًا ما؟تحذير طبي جديد.. 5 أطعمة شائعة لا تخلطها مع البيض أبدًا وإلا ستدفع الثمن!نجم سعودي يلفت أنظار رينارد والهلال معًا.. خطوة مفاجئة تغيّر مسار مسيرته!نتائج الدراسة
أظهرت نتائج البحث أن شات جي بي تي قادر على محاكاة بنية الملخص العلمي بطريقة مقبولة، لكنه يميل إلى التضحية بالدقة من أجل تبسيط المحتوى. وأشار التقرير إلى أن الملخصات تتطلب تدقيقًا بشريًا دقيقًا لضمان صحة المعلومات. وأكدت أبيغيل آيزنشتات، الكاتبة في الجمعية، أن هذه التقنيات قد تكون أدوات مساعدة مفيدة، لكنها ليست جاهزة للاستخدام كبديل رئيسي لفريق SciPak.
منهجية التجربة
بين ديسمبر 2023 وديسمبر 2024، اختار الباحثون ورقتين بحثيتين أسبوعيًا لتلخيصهما عبر شات جي بي تي باستخدام ثلاثة محاور بحثية مختلفة من حيث الدقة. ركزت الاختبارات على الأوراق التي تتضمن مصطلحات تقنية معقدة، رؤى مثيرة للجدل، اكتشافات رائدة، أو صيغ غير تقليدية. وتم استخدام نسخة "Plus" من أحدث نماذج GPT المتاحة للجمهور خلال فترة الدراسة.
تم تلخيص 64 ورقة بحثية، وخضعت هذه الملخصات لتقييم كمّي ونوعي من قِبل كتاب SciPak أنفسهم، الذين أعدوا الملخصات الأصلية لهذه الأوراق. وأشار الباحثون إلى أن التصميم التجريبي لا يحسب التحيزات البشرية، وهو عامل مهم للصحفيين عند تقييم أداة قد تؤثر على إحدى وظائفهم الأساسية.
تقييم الملخصات
أظهر التقييم الكمّي أن الملخصات لم تكن مقنعة بشكل كبير، حيث حصلت على متوسط 2.26 من 5 عند السؤال عن إمكانية دمجها مع الملخصات البشرية، ودرجة 2.14 لجاذبيتها. وكان هناك تقييم واحد فقط حصل على 5، مقابل 30 تقييمًا بقيمة 1.
نقاط القوة والضعف
ووفقًا للتقييم النوعي، غالبًا ما يخلط شات جي بي تي بين الارتباط والسببية، ويقصّر في توفير السياق، ويميل إلى المبالغة في النتائج باستخدام كلمات مثل "مبتكر" و"جديد". بينما كان قويًا في نسخ النصوص، إلا أنه ضعيف في تحليل المنهجيات، القيود، والدلالات الكبرى، خصوصًا مع الأوراق التي تحتوي على نتائج متعددة أو عند تلخيص أكثر من ورقتين معًا.