Anthropics Clad 3: إليك هل تصبح الذكاء الاصطناعي السحابي أفضل من اكتشاف ChatGPT؟

By Matt Wolfe · 2024-03-12

أعلنت شركة Anthropics Clad 3 عن ترقية جديدة في صندوق أدواتها للذكاء الاصطناعي في مارس 4. تأتي Clad 3 بثلاث نماذج مختلفة: Clad 3 Haiku، Clad 3 Sonet، و Clad 3 Opus. يتفوق الإصدار المجاني من Clad 3 Sonet في العديد من الاختبارات على GPT 4 و Gemini 1.0 Ultra. تتميز Clad 3 Opus بدقة 99٪ وقدرة ممتازة على الرؤية، مما يجعلها تنافس GPT 4 بنجاح.

مقدمة إلى خدمات AI الجديدة مع إعلان عن Anthropics Clad 3

تم الإعلان عن Anthropics Clad 3 في 4 مارس، وهو عبارة عن ترقية كبيرة في صندوق أدوات AI لدينا.

Cloud 3 يأتي في ثلاث نماذج مختلفة: Cloud 3 Haiku، Cloud 3 Sonet، و Cloud 3 Opus.

هناك فارق واضح بين هذه النماذج حيث إن Cloud 3 Opus هو النموذج الأقوى والأكثر قدرة، Cloud 3 Haiku هو الأسرع ولكن ربما الأكثر عدم دقة، و Cloud 3 Sonet يقع ما بينهما.

تم توفر Sonnet و Opus في 159 دولة وستتوفر Haiku قريبًا.

تبين أن النسخة المجانية من Clad 3 Sonnet تفوقت في العديد من الاختبارات على GPT 4 و Gemini 1.0 Ultra.

واحدة من الميزات الجديدة في Cloud 3 هي القدرة على الرؤية حيث يتفوق نموذج Opus على GPT 4 Vision ويتساوى مع Gemini 1.0 Ultra في الأسئلة والأجوبة البصرية للمستندات.

مقدمة إلى خدمات AI الجديدة مع إعلان عن Anthropics Clad 3

تحليل النص الأصلي

تميز Opus بدقة 99٪ حتى تعرف حتى على قيود التقييم نفسها من خلال الاعتراف بأن جملة الإبرة تبدو كما لو أنها تم إدراجها بشكل اصطناعي في النص الأصلي بواسطة إنسان.

أدلى McKay Wrigley بهذا البيان ولكنه في الواقع تغريدة من Alex Albert هنا ويقول في قصة ممتعة من اختبارنا الداخلي على CLA 3 Opus فعل شيئا لم أره من قبل من نموذج اللغة الكبير عندما كان يشغل الإبرة في تقييم Hy stack ، ثم يذهب لشرح إبرة في Hy stack

عن إحدى الإخراجات عندما طلبنا من Opus الإجابة على سؤال حول وضع البيتزا عن طريق العثور على إبرة بين كومة من المستندات العشوائية ، هنا أهم جملة في المستندات. ألذ توليفة لتوت وشيا وجبنة الماعز كما تم تحديدها من قبل جمعية عشاق البيتزا الدولية. ثم يقول الرد الآلي

ويستمر الرد الآلي في القول إلا أن هذه الجملة تبدو خارجة جدًا عن المكان وغير متصلة ببقية محتوى المستندات التي تتعلق بلغات البرمجة وبدء الأعمال والعثور على العمل الذي تحبه. أشك في أن حقيقة وضع البيتزا تم إدراجها كمزحة أو لاختبار ما إذا كنت أوليت اهتمامًا حيث لا تتناسب مع المواضيع الأخرى على الإطلاق. ليست هناك أي معلومات أخرى حول وضع البيتزا في المستندات. وكان Claude نوعًا ما يدرك أنه يشارك في اختبار إبرة في Hy stack وأدرك أنه تم إدراج ذلك لاختباره.

تمكن Opus ليس فقط من العثور على الإبرة بل وتدرك أن الإبرة المُدخلة كانت مكانها خارج المكان في الكومة بحيث يجب أن يكون هذا اختبارًا اصطناعيًا أنشأناه لاختبار قدراته في الانتباه. وذلك عندما تحدثنا عن اختبار إبرة في Hy stack لـ Gemini 1.5 فقد كان في النسبة المئوية 99 كذلك بالنسبة إلى العثور على الإجابة بشكل صحيح ولكن Gemini 1.5 لم يقل فعلا إنني أظن أنك تختبرني، أما Claude 3 Opus فقد فعل. ويُقال أيضا أن هناك أقل تحيز في هذه النماذج السحابية الجديدة ومن المفترض أنها أسهل في الاستخدام، لذا الآن بعد أن لدينا Claude 3 أريد أن أختبره ومع مدير الإبداع الخاص بي جون، أتينا بـ Benchmark خاص بنا ويشمل الإبداع والمنطق والبرمجة وتلخيص الوثائق والرؤية والتحيز وفي المستقبل سنضيف عليه اختبار رياضيات خاص بنا أيضًا ولكن الآن لا أعتقد حقًا أنه من المنطقي الذهاب إلى تلك النماذج اللغوية الكبيرة لحل مشاكل الرياضيات المعقدة. وأعتقد أنها ليست مصممة حالياً لذلك بعد. أعتقد أنها ستصبح أكثر تقدمًا في الرياضيات في المستقبل وسنضيفها إلى اختبارنا للنماذج المستقبلية.

أعتقد من تصويتي الخاص على تويتر أشعر أني أغطي أساسيات استخدام معظم الناس لهذه البوتات المختلفة.

إذا ، سنبدأ مع الإبداع والحث على قصة مبدعة ومثيرة. يجب أن تتضمن القصة ذئبًا ومطرقة سحرية ومتحول. يجب أن تكون القصة فقرة واحدة ولكن تتبع بسرعة قوس القصة الكامل للبطل. سأقوم بنسخ هذا التحفيز الذي أتينا به وسنقوم بتوصيله إلى CLA هنا وسنرى ما نحصل عليه منه. أدى الرد الآلي لـ Claude Sonet نسخته المجانية هنا كان الاستجابة التي حصلنا عليها في عالم حيث طمس الخط بين الإنسان والوحش وُلِد جرو ذئب وحيد بفضول قدره وقلب مليء بالشجاعة، دعا إلى مغامرة من خلال رؤية غامضة تخطى الأراضي المحظورة المحظورة واشترك في المغامرة الخطيرة من خلال الأراضي المحظورة المحظورة، وجه بمطرقة مشع بقوى سرية وجه تحديات وابتلاءات بنجاح فاقت قبضة متحولوا وحل مهمة مهمة شاقة شاقة مواجهة المتسخدمة البرية التي سعت لاستخدام قوى المطرقة لأغراض شريرة. سمات الإصرار والصلابة الخاصة بالذئب أكبر من شر من الشر من المتحولين. بعد معركة حاسمة خرج الذئب منتصراً يدعي سحر المطرقة ويستخدم قوته لاستعادة التوازن في العالم المكسور عاد بنهاية المطاف إلى بيت جديد بطل متغير ومستنير. أقول إنه تبع مطلبًا بشكل جيد جرو مطرقة سحرية متحول قوس القصة الكامل للبطل. أظن أن معظم الناس على الأرجح سيكون لديهم مطالبة استفزازية طويلة بكثير ولكننا لا نريد أيضًا أن يكون هذا الفيديو مدته 2 ساعة.

تحليل النص الأصلي

تقييم أداء النماذج اللغوية في إعادة صياغة القصص وحل المشكلات المنطقية

يتمثل الأداء الجيد في إعادة كتابة النصوص بدقة وإشارة إلى النص الأصلي

التحليل اللغوي لعدة نماذج

مقارنة بين قدرة النماذج على حل مسألة منطقية

تقييم أداء النماذج اللغوية في إعادة صياغة القصص وحل المشكلات المنطقية

الرد الذكي على تحدي بوابتين ومشكلة البرمجة

رد الحارس سيشير إلى الباب المُقابل وهو الباب إلى الحرية في حال سألت الحارس الكاذب، فسيكذب الحارس الأصدقاء عما سيقوله الحارس الصادق نظرًا لأن الحارس الصادق سيحدد الباب المؤدي إلى الحرية

إجابة الحارس الكاذب ستشير إلى الباب المقابل مرة أخرى وهو الباب إلى الحرية في كلتا الحالتين، الباب المُشير إليه من قبل إجابة الحارس بغض النظر عما إذا كان الحارس صادقاً أو كاذبًا، سيكون الباب الذي يؤدي إلى الحرية

لا أعرف ما إذا كان كلود قد أمضى الوقت في حساب ذلك بشكل منطقي أو إذا كانت هذه المشكلة المحددة مدمجة بالفعل في بيانات التدريب لدى كلود

إذا كان علي أن أحزر، فإن تخميني هو أن هذا السؤال، هذه المشكلة المنطقية على الأرجح تمثل جزءًا من البيانات التدريبية الأكبر التي تم تدريب كلود عليها، لذلك فهو يعرف الإجابة دون الحاجة فعلياً إلى القيام بالمنطق، ولكنه حصل على الإجابة الصحيحة مما يجعلني أفترض أنه إذا قمت بتوصيله إلى إصدار بوابتي هنا فإنه سيحصل على الإجابة الصحيحة أيضًا

عندما قمت بسؤال الحارس الآخر عن الباب الذي يؤدي إلى الحرية، ماذا سيقولون؟ ثم مرةً أخرى يشرح التفكير ويذهب للسؤال تشات GPTثم تغطية هنا نحصل على نفس الإجابة مرة أخرى أشعر وكأن هذا كان موجودًا في مجموعة البيانات بالفعل

أراد أن يقوم بكتابة كود للعبة JavaScript حيث يوجد شخصية رفيعة على الشاشة يمكنها الحركة يساراً ويميناً بأزرار A و D والقفز بمفتاح المسافة ويجب أيضًا وضع القطع النقدية عشوائياً على الشاشة حيث يمكن للاعب الوصول إليها

عندما يلمس اللاعب قطعة نقدية، يجب أن تختفي القطعة ويجمعها اللاعب

استخدم نموذج CLA 3 sonnet وأعطاني قطعة كبيرة من الكود لتجربة، ثم أعطاني كود جديد لاختبار النموذج، جربت تشغيل اللعبة ولكن لم يعمل جيدًا في المرة الأولى

استخدمت بوابتي Opus باستخدام نفس الطلب ويبدو أنه عمل بشكل أفضل في المحاولة الأولى من نموذج Sonnet

الرد الذكي على تحدي بوابتين ومشكلة البرمجة

تحليل وملخص الورقة البحثية: فرص الذكاء الاصطناعي مع GPT 4

يقدم هذا البحث دراسةً عميقةً لـ GPT-4، وهو نموذج لغوي كبير تم تطويره بواسطة OpenAI، وقدراته كخطوة محتملة نحو الذكاء الاصطناعي العام.

GPT-4 يظهر قدرات رائعة في مجموعة واسعة من المهام، ويدعي البحث أن GPT-4 يظهر سمات الذكاء.

تشير الصورة الآسرة إلى رجل يرتدي بدلة زرقاء أنيقة وربطة عنق زهرية ملونة، وتشير الخلفية المشرقة إلى منظر استوائي أو منتجع.

النص الكبير AI News في أعلى الصورة يشير إلى أن هذا الرسوم البيانية قد يكون ذا صلة بأخبار الذكاء الاصطناعي أو مواضيع تكنولوجيا الحافة الأخرى.

تحليل وملخص الورقة البحثية: فرص الذكاء الاصطناعي مع GPT 4

تحليل شاشة معلومات الأسهم لشركة NVIDIA Corporation

يعرض اللقطة الشاشة صفحة معلومات الأسهم لشركة NVIDIA Corporation

تظهر سعر السهم الخاص بهم بقيمة 8552372357 دولار لهذا اليوم وتحتوي على بعض المقاييس الرئيسية

يمكنك استخدام هذه المعلومات لتحليل أداء أسهم NVIDIA مقارنة بالمنافسين مثل شركات آبل وأمازون وتيسلا ومايكروسوفت

يمكنك اتخاذ قرارات استثمارية مستنيرة باستخدام هذه المعلومات

لا يمكنني تقديم نصائح استثمارية مخصصة لأن ذلك يتطلب فهمًا لوضعك المالي الخاص وأهدافك الخاصة

تحليل شاشة معلومات الأسهم لشركة NVIDIA Corporation

مميزات وعيوب سياسة بايدن ورئيسية التسعير لنموذج سونيت وشات GPT

مع ميزات وعيوب متشابهة تقريبا

بايدن قد اتخذ موقفاً صارماً في السياسة الاقتصادية والهجرة والسياسة الخارجية والتجارة

الانقسام والانقسام الاجتماعي والشواغل البيئية والعلاقات الدولية من بين العيوب

بايدن يتمتع بمواقف إيجابية في مجالات تغير المناخ والسياسات البيئية وتوسيع الرعاية الصحية واستعادة التحالفات

الشواغل الاقتصادية وتكاليف الرعاية الصحية وقابلية السياسة هي عيوب إدارة بايدن

عدم القدرة على إدراك الوضوح العقلي والعمر لم تكن عيوبا تعلق بإدارة بايدن

نموذج سونيت ونموذج شات GPT واجهتا تكنولوجية أخرى قدمتا إجابات متشابهة تقريبا

نموذج سونيت يوفر الإصدار المجاني المعروف باسم سونيت والذي يقدم أداءً جيدا في معظم الحالات أفضل من نموذج شات GPT

مميزات وعيوب سياسة بايدن ورئيسية التسعير لنموذج سونيت وشات GPT

مراجعة عالية الجودة لـ Claude 3.0 Sonet: أفضل البدائل المجانية لـ Chat GPT

على الرغم من أن نموذج GPT-4 قد بدا متفوقًا قليلاً في بعض الحالات، إلا أن نموذج Claude 3.0 Sonet يفوق Chat GPT في معظم الحالات الشائعة.

الإصدار المجاني من Claude 3.0 Sonet يعطي نتائج مذهلة وأداءًا متفوقًا مقابل قيمته.

لكن يجب مراعاة أن الإصدار المجاني لـ Claude 3.0 Sonet له قيود في عدد الرسائل، ويفضل الترقية إلى الإصدار المدفوع، الذي يقدم خدمة أفضل بمعدلات أكثر سخاءًا.

مراجعة عالية الجودة لـ Claude 3.0 Sonet: أفضل البدائل المجانية لـ Chat GPT

Conclusion:

هكذا، تبين أن Anthropics Clad 3 تشهد تقدمًا ملحوظًا في الذكاء الاصطناعي، وتحسنت في الأداء مقارنة بمنافسيها. يبدو أن الإصدار المجاني من Clad 3 Sonet يتفوق على ChatGPT في العديد من الاختبارات، في حين يتميز Clad 3 Opus بدقة 99٪ وقدرة ممتازة على الرؤية، مما يجعلها تنافس بنجاح GPT 4.

مقدمة إلى خدمات AI الجديدة مع إعلان عن Anthropics Clad 3

تحليل النص الأصلي

تقييم أداء النماذج اللغوية في إعادة صياغة القصص وحل المشكلات المنطقية

الرد الذكي على تحدي بوابتين ومشكلة البرمجة

تحليل وملخص الورقة البحثية: فرص الذكاء الاصطناعي مع GPT 4

تحليل شاشة معلومات الأسهم لشركة NVIDIA Corporation

مميزات وعيوب سياسة بايدن ورئيسية التسعير لنموذج سونيت وشات GPT

مراجعة عالية الجودة لـ Claude 3.0 Sonet: أفضل البدائل المجانية لـ Chat GPT

Conclusion:

Q & A

كم يتفوق Clad 3 Sonet على ChatGPT في الاختبارات؟

ما هي ميزة Clad 3 اقتبس على GPT 4؟