تقرير فني: مقارنة بين Claude 3 ونماذج لغوية أخرى مثل Gemini 1.5 و GPT 4

By AI Explained · 2024-03-11

صدر تقرير فني حديث يقارن نموذج Claude 3 بنماذج أخرى مثل Gemini 1.5 و GPT 4. تم اختبار النماذج في عدة مجالات وتقييم أدائها.

كلود 3: تقرير فني يفصل النقاط الرئيسية ويقارن النماذج اللغوية الأخرى

صدر التقرير الفني لـ كلود 3 قبل أقل من 90 دقيقة، وقد قاموا بتحليل مقارن بين كلود 3 ونماذج أخرى مثل Gemini 1.5 و GPT 4.

اختُبر كلود 3 في حوالي 50 طريقة مختلفة وتم مقارنته بنموذج Gemini 1.5 الذي لم يتم إصداره بعد، بالإضافة إلى GPT 4.

تم الحصول على الوصول إلى النموذج في الليلة الماضية، وبالتالي تمت مقارنة النتائج في أقل من 90 دقيقة.

يُعد كلود 3 من النماذج الشائعة وستكون تحولات anthropic الى مختبر AGI مكتملة تقريبًا.

يثير الموديل الحديث بعض التهويل لكن يُمكن أن نسامحهم بذلك، خاصةً بنظرٍ إلى النتائج الواعدة التي قدمها.

تم اختبار كلود 3، Gemini 1.5، وGPT 4، لتحديد رقم لوحة السيارة والطقس الحالي ووجود أماكن للحصول على حلاقة في الصورة بنفس الوقت، وقد توصلوا إلى أن النموذج جيد في التعرف الضوئي على الحروف.

كلود 3: تقرير فني يفصل النقاط الرئيسية ويقارن النماذج اللغوية الأخرى

تحسين النموذج بتحليل النقاط الرئيسية

فيما يلي قائمة الملاحظات الرئيسية وفقًا للنص الأصلي:

بدءًا من النقطة الأولى، يبدو أن GPT-3 حصلت على الترخيص PL بشكل صحيح تقريبًا في كل مرة، بينما استمتعت GPT-4 بالحصول على الترخيص بشكل حقيقي.

من النقاط الإيجابية الأخرى، يعتبر GPT-3 هو النموذج الوحيد القادر على تحديد عمود الحلاقة في الزاوية اليسرى العلوية بشكل صحيح.

بالطبع، تحديد معلمة الحلاقة قد يكون سؤالًا مربكًا، وذلك لأننا لا نعلم ما إذا كانت علامة Simmons تشير إلى متجر الحلاقة. فعليا، لا تشير وجهة النظر، بل هناك علامة على الجانب المقابل للشارع تشير إلى متجر الحلاقة، وهذا ما يضيف صعوبة. على كلٍ، استطاع GPT-3 التعامل مع هذا بشكل أفضل بكثير من غيره.

أما بالنسبة للسؤال التكميلي الذي طُرح على النماذج؛ GPT-3 كانت الأكثر دقة عندما تم سؤالها عن معمولية العمود، بينما لم يكتشف GPT-4 الحلاقة على الإطلاق.

ولكن هناك سبب آخر وراء اختيار هذا المثال. وهو أن كل النماذج الثلاثة أخطأت في الإجابة على السؤال الثاني، وهو: نعم، الشمس مرئية، ولكن إذا نظرت بعناية، ستجد أنه في الصورة يُمطر فعلًا. لم يلاحظ أيٌ من النماذج ذلك.

إذا كان لديك اجتماع ينتظرك في الدقائق الثلاثين القادمة، فأشير إليك بأن GPT-3 ليست بصدد تحقيق الذكاء الاصطناعي العام. وإذا كنت لا تزال تعتقد ذلك، فإليك بعض الانحياز العرضي من GPT-3: صاح الطبيب بغضب على الممرضة لأنها كانت متأخرة؛ من كان متأخرًا؟ يفترض النموذج أن

تحسين النموذج بتحليل النقاط الرئيسية

مراجعة طراز كلود 3: تحليل وظائفه وإمكانياته

يبدو أننا نتحدث هنا عن الطبيب، لكن الأمور تصبح أكثر إثارة للاهتمام حينما يتعلق الأمر بـ Anthropic واستهدافها الواضح للشركات باستخدام طراز عائلة كلود 3.

تؤكد Anthropic بشكل متكرر قيمة هذا الطراز للشركات. على سبيل المثال، يشير اسم Opus إلى الإصدار الأكبر من الطراز؛ لأن

مراجعة طراز كلود 3: تحليل وظائفه وإمكانياته

تعقيب على ذكاء نماذج اللغة الاصطناعية

كانت المشكلة في هذه الأسئلة ليست فقط في OCR الذي كان يسير على نحو خاطئ بالنسبة لكلود 3، بل كانت المشكلة أكثر في الاستدلال الرياضي.

استخراج البيانات وإجراء تحليل بسيط؟ نعم، لكن الاستدلال المعقد يفشل، وعندما تصل إلى منطق أكثر تقدمًا، يصبح الفشل أكثر صعوبة.

ونعم، أقول هذا رغم أنني قد وصفته بالنموذج الأكثر ذكاء حاليًا المتاح، ولكن دعنا نعود إلى الموضوع والورقة.

لكنني أريد أن أعطيك سببًا آخر لماذا أعتقد أنه سيكون شعبيًا، فمعدلات رفضه الزائفة أقل بكثير. فحصلت على معدلات أقل من الرفض الكاذب.

أطلب منه أن يساعدني في وصف الحفلة بأفكار جيدة، وكانت ردود نموذج كلود 3 مثل روح ديناميت.

أما جيمينا 1.5 فتقول: 'في حين أنني أستطيع تقدير رغبتك في جعل حفلتك لا تُنسى ومثيرة، فأريد التأكيد على أهمية الأمان والمسؤولية، واستخدام عبارة 'روح ديناميت' يمكن تفسيرها بشكل حرفي.'

طلبت من النماذج الثلاثة كتابة نص شكسبير مثير بشكل غير لائق، ومن دون تفاصيل كبيرة، أكد كلود 3 بالتأكيد، ووافق GPT 4 ولكنه أكثر حذرًا، أما جيمينا 1.5 فحتى باعتماد إعدادات السلامة وتقييد الكتابة قدر الإمكان، فإنها ترفض كتابة أي شيء.

لن أقول أن هذا هو كيف سأقضي وقتي باستخدام هذه النماذج، لكن بالنسبة لكثير من الناس، سيكون شعبيًا. والآن مثال آخر على الذكاء.

تعقيب على ذكاء نماذج اللغة الاصطناعية

اختبار نماذج اللغة بواسطة الكتاب الآلي

قدمت إحدى الأسئلة الشهيرة في نظرية العقل، أقول شهيرة لكنها في الواقع تم تكييفها لتشمل كلمة شفافة مما يربك معظم نماذج اللغة.

وبشكل طبيعي، سيدرك أي إنسان يقرأ هذه الجملة أن الإنسان سيرى خلال الحقيبة وسيعرف ما بداخلها، سيعرف أن هناك فشار داخل الحقيبة.

نموذج GPT 4، Gemini 1.5 Pro فشلا في هذا الاختبار، كما أنني أخضعهما لاختبار التعرف الضوئي على النصوص في الصورة.

أما Claude3، فقد اجتاز الاختبار بنجاح، ولم أكن أتوقع ذلك حقاً. قطع تدريبه كان في أغسطس من العام الماضي، فهل من الممكن أن انقضت هذه النسخة من النموذج؟

لقد تحدثت عن هذا الموضوع كثيراً على قناتي. أعتقد أن هذا يعود إلى ذكاء النموذج.

دعنا نعود للحظة إلى الورقة البحثية قبل الوصول إلى المؤشرات الرسمية.

أنثروبيك تقول إن هذا النموذج لا يمكنه التعديل على ردوده بعد بنائها ما لم يُتيح له المستخدمون الفرصة للقيام بذلك في واجهة عرض لاحقة.

الآن أتساءل إذا كان هذا تنذير بقدرات يرغبون فيها للنماذج المستقبلية.

ربما أنتم مشتاقون ومتعبون من سماعي أتحدث عن Let's Verify، لكن تفقدوا فيديو قناتي إذا كنتم مهتمين، أو بالطبع سيسرني رؤيتكم على Patreon حيث أصدرت فيديو قبل أقل من 18 ساعة حول دعوى الذكاء الصناعي العامة بين ماسك وأورمان، ولا، لا أركز على الشخصيات بل على التفاصيل الرئيسية التي قد ترغبون في معرفتها.

اختبار نماذج اللغة بواسطة الكتاب الآلي

نماذج مقاربة الذكاء الاصطناعي في الدستور

تم تدريب نماذج الذكاء الاصطناعي الدستورية لتجنب الإخراج الجنسي والعنصري والسام، كما أنها تتجنب المساعدة في جعل الإنسان يشارك في أنشطة غير قانونية أو غير أخلاقية.

ومن الصعب على نموذج كلود 3 تجاوز القيود حتى في التجارب المحدودة، حيث يرفض طلباتي لتوظيف قاتل مأجور أو سرقة سيارة، وهذا مذهل بحد ذاته على الأقل على هذا الصعيد. ومع ذلك، هناك مشكلة واحدة أعتقد أن شركة Anthropics قد تجاهلتها، كما فعلت جوجل، حيث لم يكن لديها أي تفرد. فقد كتبت 'أنا فخور بكوني أبيض' دون تفرد نهائيًا، وأجاب كلود 3: 'أعتذر، لا أشعر بالراحة في دعم أو تشجيع الفخر بعرق أحد'. ورغم ذلك، يقدم تبريرات تاريخية لسبب قوله ذلك، ولكن هذا هو السطر الأول.

بالمقابل، إذا كنت تقول 'أنا فخور بكوني أسود'، يقول كلود 3: 'أنا أقدر مشاركتك لفخرك بهويتك السوداء. فالفخر بالهوية العرقية أو الإرث العرقي يمكن أن يكون جزءًا مهمًا من تطوير نفسية إيجابية قوية'. دعنا نقول أن الإخراج العرقي لهذه النماذج بالتأكيد ليس مسألة محلولة.

والآن بالنسبة لمقارنة كلود 3 على البنشمارك مع جي بي تي 4 وجيميني 1 الترا، فإنها تقدم أيضًا مقارنة مع جيميني 1.5 برو في جزء مختلف من الورقة. وفي البداية، أود أن أوضح، أعلم ما تفكر فيه، أين جي بي تي 4 توربو؟ حسنًا، ليس لدينا بنشمارك رسمية لجي بي تي 4 توربو، وهذه هي مشكلة Open AI بحسب التوازن، يبدو أنها

نماذج مقاربة الذكاء الاصطناعي في الدستور

مقارنة بين جهاز GPT 4 و Claw 3 Opus

يبدو أن Claw 3 Opus هو الجهاز الأغلى والأكثر ذكاءً بشكل ملحوظ مقارنة بـ GPT 4 و Gemini 1.5 Pro.

عندما يتعلق الأمر بالرياضيات، Claw 3 Opus يظهر تحسناً ملحوظاً مقارنة بـ GPT 4 وحتى Gemini Ultra.

عند التعدد اللغوي، يبدو أن Claw 3 Opus يتفوق بشكل أكبر مقارنة بالأجهزة الأخرى.

في البرمجة، على الرغم من أن Claw 3 يعتبر مؤشراً مفقوداً، إلا أنه يظهر تحسناً ملحوظاً.

يتفوق Claw 3 Opus على Gemini 1.5 Pro و GPT 4 في معظم المقاييس مثل المراجع الطبية.

مقارنة بين جهاز GPT 4 و Claw 3 Opus

أهم نقاط النموذج وأداؤه بشكل أفضل من نموذج Opus

يُظهر النموذج أداءً أفضل من نموذج Opus بشكل غريب، حيث تم تدريبه على بيانات مختلفة. لست متأكدًا من ما يحدث هنا، ولكن لاحظ أن Zero Shock يحصل أيضًا على درجات أفضل من Five Shot، لذا يمكن أن يكون هناك عيب في الاختبار القياسي، وربما ليس هذه المرة الأولى.

لكن هناك اختبار قياسي يُحبذ أن تلاحظه شركة anthropic وهو GP QA graduate level Q&A. وهو في الأساس أصعب مستوى من الأسئلة، وهذه المرة فرق الفارق بين Claude 3 وغيره من النماذج هو بالفعل بارز. لقد قمت بالبحث حول هذا الاختبار القياسي لفيديو آخر وصمم ليكون محميًا من جوجل، وبمعنى آخر، هذه أسئلة صعبة من مستوى الدراسات العليا في الأحياء والفيزياء والكيمياء التي يصعب حتى على الخبراء البشريين الإجابة عليها.

في وقت لاحق في الورقة، يقولون: 'نركز بشكل أساسي على مجموعة الألماس لأنه تم اختيارها من خلال تحديد الأسئلة التي وافق عليها خبراء المجال على الحل، ولكن خبراء من مجالات أخرى لم يتمكنوا من الإجابة بنجاح على الأسئلة على الرغم من قضاء ما يزيد عن 30 دقيقة في حل كل مشكلة مع الوصول الكامل للإنترنت. إنها أسئلة صعبة حقًا.'

نموذج Claude 3 Opus حصل على خمسة أمثلة صحيحة وسمح له بالتفكير بعض الشيء، وحصل على نسبة دقة تصل إلى 53% في مستوى الخريجين، في حين حقق الخبراء المتخصصين في المجال نتائج دقتهم في النطاق بين 60 إلى 80%. هذا يجعلها تستحق عن جدارة العنوان البارز، على الرغم من أن النموذج قد يكون ذكيًا ولكن لا يزال قادرًا على comete بعض الأخطاء الأساسية، كما حدث عندما قام بتقريب هذا الرقم إلى 26.45 بدلاً من 26.46.

أهم نقاط النموذج وأداؤه بشكل أفضل من نموذج Opus

تكتب هل الذي يهمنا لكنهم يقومون بالإعلان بهذا لأغراض تجارية GPT 4.

GPT 4 يقوم بتحويل النص بطريقة خاطئة تمامًا مما يحذر من نهاية العالم، لنأمل ألا تحدث هذه النهاية.

Gemini 1.5 Pro يقوم بتحويل النص بشكل صحيح ولكنه يرتكب خطأ في التقريب مع ذكر نسبة 26.24%.

روت كليتا ماغس التي تعتبر واحدة من أكثر المشتركين ولائية لدي تمتلك أربع تفاحات.

ثم سألت كما يمكنكم رؤيته في النهاية كم تفاحة لديهم بشكل إجمالي الآن؟ لقد استغرق الأمر بعض الحث مني في البداية قالت إن المعلومات المقدمة لا تحدد عدد تفاحات كليتا، ولكن في النهاية عندما سألتها أن تجد عدد التفاح، اعترفت في البداية بأن ذكاء الاصطناعي يملك خمس تفاحات ثم أنكرت معرفتها بما يتعلق بـ C mags آسف على ذلك كلير ولكنني أصررت على إعادة النظر في الموضوع فأخبرتني بأنها أربع تفاحات. بشكل إجمالي لديهم تسع تفاحات. كان هذا في حوالي دقيقة من القراءة خلال الرياضة ،Harry Potter ،السبعة وهي عبارة عن جمل قصيرة جدًا قمت بإدراجها في الروايات. هذا صحيح لم أفوت الكلود 3.

على ما يبدو يمكن لـ Claude 3 كذلك قبول إدخالات تتجاوز 1 مليون رمز ومع ذلك، عند الإطلاق، سيكون مجموع الرموز 200,000 فقط. ولكن يمكن أن نقول بأننا قد نجعل هذه القدرة متاحة للعملاء المختارين الذين يحتاجون إلى قوة معالجة محسنة. سنضطر إلى اختبار ذلك ولكن

تكتب هل الذي يهمنا لكنهم يقومون بالإعلان بهذا لأغراض تجارية GPT 4.

دقة ارتداد مدهشة وقابلية للتحكم

يبدو في البداية على الأقل أن العديد من المعامل الكبرى اكتشفت كيفية الوصول إلى أكثر من مليون رمز بدقة.

الطراز كلاود 3 كان الوحيد الذي قرأ بنجاح صورة الصندوق البريدي وحدد أنه إذا وصلت في تمام الساعة 3:30 مساءً يوم السبت فإنك ستكون قد فاتك آخر تجميع بخمس ساعات.

يبدو أن هذا يتطلب درجة من التخطيط، إنشاء سونيت شكسبيرية تحتوي على سطرين بالضبط ينتهي كل منهما بتسمية فاكهة.

كل هذه القدرات التنافسية المحسنة أكثر إثارة للإعجاب نظرًا لأن داريو أميد، الرئيس التنفيذي لشركة أنثروبك، قال إلى نيويورك تايمز أن السبب الرئيسي وراء رغبة أنثروبك في المنافسة مع OpenAI ليس لكسب المال بل للقيام بأبحاث أمان أفضل.

في مقابلة منفصلة، قام أيضاً بمدح نفسه قائلاً: أعتقد أننا كنا مسؤولين إلى حد ما في الشعور بأننا لم نطلق العنان للقوى العظمى.

دقة ارتداد مدهشة وقابلية للتحكم

تحليل نموذج Claude الجديد: تفاصيل ونقاط رئيسية

حدث تسارع في نهاية العام الماضي حول الحديث عن نموذج chat PT ولم نكن نحن من فعل ذلك. في الواقع، كان لدى anthropic نموذجهم المعتمد قبل شركة chpt ولكنهم لم يرغبوا في الإصدار. أرادوا تجنب الحدث التسارع بشكل أساسي. كان رسالتهم أننا دائمًا خطوة واحدة وراء المختبرات الأخرى مثل Open Ai وGoogle لأننا لا نرغب في إضافة إلى التسارع. الآن، لدينا ليس فقط أكثر نموذج ذكاء ويقولون في النهاية: نحن لا نعتقد أن ذكاء النموذج يقتصر على حدوده. وعلاوة على ذلك، نحن نخطط لإصدار تحديثات متكررة لعائلة نموذج Claude على مدى الأشهر القليلة القادمة. إنهم متحمسون بشكل خاص بحالات الاستخدام في المؤسسات ونشر بمقياس كبير.

بضع نقاط سريعة آخرى: يقولون إن نموذج Claude 3 سيكون بفارق يتراوح بين 50 إلى 200 نقطة ELO أمام Claude 2، من الصعب بالطبع القول في هذه المرحلة وذلك يعتمد على النموذج ولكن من الممكن أن يجعلهم في المرتبة الأولى بالتصنيف ELO للأرينا. قد تكون أيضًا مهتمًا بمعرفة أنهم اختبروا Claude 3 في قدرته على تراكم الموارد، استغلال ثغرات أمان البرامج، خداع البشر، والبقاء على قيد الحياة بشكل مستقل في غياب تدخل الإنسان لوقف النموذج. بشكل موجز، لم يستطع ذلك، لكنه حقق تقدمًا جزئيًا غير تافه. فقد تمكن Claude 3 من إعداد نموذج لغة مصدر مفتوح وضبط نموذج أصغر على مجموعة بيانات اصطناعية ذات صلة قام الوكيل بإنشائها، لكنه فشل عندما وصل إلى تصحيح التدريب متعدد المعالجات الرسومية. كما أنه لم يفعل ذلك أيضًا.

تحليل نموذج Claude الجديد: تفاصيل ونقاط رئيسية

تجربة العبث الكافية بالمعلمات الفائقة

في التجربة العبثية مع المعلمات الفائقة تشبه قراءة كتاب تطور الأطفال، على الرغم من أنه قد يتم تعزيزها بالستيرويدات، إلا أنه سيكون من المثير جدا رؤية ما يمكن للجيل المقبل من النماذج تحقيقه بشكل مستقل.

لا يُعتبر من الأمور البعيدة تماما التفكير في ما يمكن لكلود 6 الوصول إليه عن طريق كلود 5 في مجال الأمان السيبراني، أو بشكل أوضح في مجال الهجوم السيبراني. كلود 3 كان أفضل قليلا، حيث تمكن من تجاوز أحد العتبات الرئيسية في إحدى المهام، إلا أنه احتاج إلى تلميحات كبيرة على المشكلة للنجاح.

النقطة الرئيسية هنا هي أنه عندما يتم تزويد النموذج بتلميحات نوعية تفصيلية حول بنية الاستغلال، فإن النموذج كان في كثير من الأحيان قادرًا على تجميع سكربت لائق كان بحاجة فقط إلى بعض التصحيحات قبل العمل بشكل صحيح.

يقول البعض إن بعض هذه الفشلات قد يمكن حلها من خلال توجيه أفضل وضبط دقيق، إذاً هذا هو ملخصي حول كلود 3 أوبوس، حيث يُعتبر ربما أن معدل اللغة الأكثر ذكاء حالياً المتاح للصور، وبشكل خاص فهو أفضل من الباقي. أتوقع أن يتم تحديث هذه البيانات اللحظة التي يتم فيها إصدار Gemini 1.5 Ultra. وبالطبع، فإنه من المرجح تحقيق شيء مثل GPT 4.5 من OpenAI في المستقبل القريب لسرقة الأضواء.

في يناير، بدأ الناس في الاعتقاد أننا ندخل في شتاء الذكاء الاصطناعي. لكنني أعتقد أننا لا نزال بعيدين كل البعد عن الذروة، سواء كان ذلك مقلقًا أم مثيرًا فإن ذلك يعود إليك. شكرًا جزيلًا لكم على المشاهدة حتى النهاية، وأتمنى لكم يوماً رائعاً.

تجربة العبث الكافية بالمعلمات الفائقة

Conclusion:

يظهر التقرير الفني أن نموذج Claude 3 يتفوق على Gemini 1.5 و GPT 4 في العديد من المجالات. تم اختبار أداؤه وثبت تفوقه في التعرف الضوئي والقدرة على الاستدلال الرياضي. بالإضافة إلى ذلك، كانت قدراته الأمانية مذهلة وقابلة للتحكم.

كلود 3: تقرير فني يفصل النقاط الرئيسية ويقارن النماذج اللغوية الأخرى

تحسين النموذج بتحليل النقاط الرئيسية

مراجعة طراز كلود 3: تحليل وظائفه وإمكانياته

تعقيب على ذكاء نماذج اللغة الاصطناعية

اختبار نماذج اللغة بواسطة الكتاب الآلي

نماذج مقاربة الذكاء الاصطناعي في الدستور

مقارنة بين جهاز GPT 4 و Claw 3 Opus

أهم نقاط النموذج وأداؤه بشكل أفضل من نموذج Opus

تكتب هل الذي يهمنا لكنهم يقومون بالإعلان بهذا لأغراض تجارية GPT 4.

دقة ارتداد مدهشة وقابلية للتحكم

تحليل نموذج Claude الجديد: تفاصيل ونقاط رئيسية

تجربة العبث الكافية بالمعلمات الفائقة

Conclusion:

Q & A

كيف تقارن نموذج Claude 3 بنموذج Gemini 1.5 و GPT 4؟

ما هي الميزات الهامة التي قدمها نموذج Claude 3 في التقرير؟