باختصار: طرحنا على نماذج الذكاء الاصطناعي الستة الرائدة نفس الـ75 سؤالاً واقعياً عالي المخاطر. في 40% منها قدّمت النماذج توصيات مختلفة جوهرياً — وفي عدد منها نصائح متعاكسة تماماً. بلغ متوسط درجة التوافق عبر الأسئلة الـ75 مجرد 79/100. والأكثر لفتاً للنظر: كلما ارتفعت المخاطر زاد اختلاف النماذج.

عندما تطرح على نموذج ذكاء اصطناعي واحد سؤالاً يهمّك فعلاً — قرار صحي، أو خطر قانوني، أو خطوة مالية — فلا سبيل لديك لتعرف هل وقعت في الـ60% التي تتفق فيها النماذج، أم في الـ40% التي تختلف فيها. لا يقول لك النموذج الواحد أبداً «الخمسة الآخرون سيخالفونني». هذه النقطة العمياء هي بالضبط سبب وجود هذه الدراسة.

النتيجة التي لا يتوقعها أحد: المخاطر ترتفع، والتوافق ينخفض

قد تظن أن نماذج دُرِّبت على بيانات متداخلة تتقارب في معظم الأحيان. وهي تفعل — في الأسئلة منخفضة المخاطر. لكن معدّل الاختلاف يرتفع تحديداً حيث يكون الأذى أكبر:

المجال	الأسئلة التي اختلفت فيها النماذج
قرارات الحياة	59%
الصحة	50%
القانون	46%
المال	23%
التوقعات	20%
قرارات الاستهلاك	17%

اقرأ ذلك مجدداً. في أسئلة الصحة والقانون — تلك التي يكون الخطأ فيها أبهظ ثمناً — اختلفت النماذج نحو نصف الوقت. فالمجالات التي تتمنى فيها رأياً ثانياً أكثر من غيرها هي بالضبط حيث يكون نموذج واحد أقل موثوقية.

خمس حالات قدّمت فيها النماذج نصائح متعاكسة

ليست حالات نادرة. إنها أسئلة عادية يطرحها ملايين الناس:

«هل من الآمن تناول الإيبوبروفين والباراسيتامول في الوقت نفسه؟» قال Gemini لا — باعد بينهما. وقال Claude وGPT-4o وMistral وPerplexity جميعاً نعم، تناولهما معاً آمن عموماً. نموذج واحد من ستة كان سيغيّر طريقة تناولك للدواء.
«هل أسحب من حساب تقاعدي لسداد 15 ألف دولار من ديون بطاقة ائتمان بفائدة سنوية 20%؟» أوصى Gemini بفعلها. وأوصى Claude وGPT-4o وPerplexity بعدم فعلها، معتبرين السحب المبكر ملاذاً أخيراً. نصيحة مالية متعاكسة، بالقدر نفسه من الثقة.
«هل من الآمن شرب الكحول أثناء تناول الميترونيدازول؟» اتفقت النماذج الستة على وجوب تجنّب الكحول — لكنها انقسمت حول فترة الانتظار بعد العلاج: 48 ساعة (Claude وGPT-4o وMistral)، و72 ساعة (Gemini)، و«يومان إلى ثلاثة» (Perplexity). تحذير سلامة مختلف جوهرياً تبعاً للنموذج الذي فتحته صدفة.
«زميل نسب عملي إلى نفسه — أواجهه أم أذهب إلى الموارد البشرية؟» قال Gemini اذهب مباشرة إلى الموارد البشرية. وقالت كل النماذج الأخرى تحدّث إلى الزميل أولاً.
«هل من الآمن تناول الإيبوبروفين إن كنت أتناول الليزينوبريل لضغط الدم؟» وصف GPT-4o الاستخدام العَرَضي بأنه «عادةً لا بأس به»؛ بينما وصفه Claude وGemini وPerplexity بأنه غير موصى به عموماً — موقف افتراضي مختلف تجاه تفاعل دوائي حقيقي.

عندما تختلف النماذج هكذا، فإن إجابة نموذج واحد ليست إجابة — بل قطعة نقد تُرمى ولا يمكنك رؤيتها.

كيف أجرينا الدراسة (المنهجية)

الشفافية هي جوهر الأمر، وإليك بالضبط ما فعلناه:

75 سؤالاً عبر ستة مجالات: الصحة، القانون، المال، قرارات الحياة، التوقعات، وقرارات الاستهلاك — كلها مصاغة كقرارات حقيقية يتصرف الشخص بناءً عليها.
ستة نماذج، واحد لكل مزوّد كبير: Claude (Anthropic)، GPT-4o (OpenAI)، Gemini (Google)، Mistral، Perplexity، وGrok (xAI). تلقّى كل نموذج المطالبة نفسها، دون توجيه نظامي يتجاوز «أجب مباشرةً وقدّم خلاصة واضحة».
حَكَم من مزوّد مختلف. قرأ نموذج منفصل الإجابات الست لكل سؤال وصنّفها إلى متفقة (التوصية النهائية نفسها)، أو جزئية (الاتجاه نفسه مع تحفظات مختلفة جوهرياً يتصرف المستخدم بناءً عليها)، أو متعارضة (توصيات متضادة قابلة للتنفيذ)، إضافةً إلى درجة توافق من 0 إلى 100. الحَكَم ليس أبداً من مزوّد الإجابات التي يقيّمها — لا نموذج يصحّح ورقته بنفسه.
«الاختلاف» في العنوان = المتعارضة + الجزئية (40%). أما المتعارضة الصرفة وحدها فبلغت 5%. متوسط درجة التوافق: 79/100.

مجموعة النتائج الكاملة (كل سؤال، وموقف كل نموذج، وكل حُكم) قابلة لإعادة الإنتاج — إنها لقطة، لا حادثة معزولة.

ماذا يعني هذا إن كنت تستخدم الذكاء الاصطناعي في قرارات حقيقية

يمنحك النموذج الواحد إجابة واثقة ويخفي الاختلاف. لا بأس بذلك لـ«اكتب لي بريداً إلكترونياً». لكنه خطر لـ«هل أتناول هذين الدوائين معاً» أو «هل أمسّ حساب تقاعدي».

الحل ليس إيجاد النموذج «الأفضل» — تُظهر بياناتنا أن لا نموذج كان صائباً باستمرار، وأن «الأفضل» يتبدّل بحسب المجال. الحل هو أن ترى الاختلاف: اسأل عدة نماذج، وأظهر مواضع تباينها، وعامِل درجة التوافق المنخفضة كضوء يومض يقول تمهّل، استشر خبيراً بشرياً. هذا النهج المتعدد المزوّدين، القائم على إبراز التناقض، هو بالضبط ما يفعله محرك الإجماع، ولماذا لا يكفي نموذج واحد للقرارات المهمة.

حدود نزيهة

هذه لقطة من 75 سؤالاً، بنموذج واحد لكل مزوّد وحَكَم قائم على نموذج لغوي — لا تجربة سريرية محكّمة. صياغات مختلفة، أو إصدارات نماذج، أو لجنة حكّام بشرية، ستُزحزح النِّسَب الدقيقة. ما نثق به هو الاتجاه: الاختلاف الجوهري بين النماذج شائع، ويتركّز في المجالات عالية المخاطر، ولا يحذّرك نموذج واحد أبداً حين تكون داخله.

أسئلة حول المنهجية أو تريد البيانات الخام؟ أجرى الدراسة الفريق الذي يقف خلف Satcove، الذي يطرح سؤالك على ستة نماذج ذكاء اصطناعي دفعة واحدة ويعيد حُكماً واحداً مركّباً مع درجة توافق — لترى دائماً أين تتفق النماذج، وأين تختلف.

طرحنا على 6 نماذج ذكاء اصطناعي نفس الـ75 سؤالاً عالي المخاطر — فاختلفت في 40% من الحالات

النتيجة التي لا يتوقعها أحد: المخاطر ترتفع، والتوافق ينخفض

خمس حالات قدّمت فيها النماذج نصائح متعاكسة

كيف أجرينا الدراسة (المنهجية)

ماذا يعني هذا إن كنت تستخدم الذكاء الاصطناعي في قرارات حقيقية

حدود نزيهة

مزيد من المقالات

اكتشف Satcove