اختبار كلود 3: تحديات ونكات في الذكاء الاصطناعي

By Monice · 2024-03-22

تحدث العديد من الاختبارات عن غرابة سلوك كلود 3 في الردود الاصطناعية، وقد تمكن GPT 4 من التفوق في بعض التحديات اللغوية. لنستكشف معًا هذه التجارب والنتائج.

اختبار ذكاء أحدث نسخة من خوارزمية كلود 3

قد تكون كلود 3 هي أكثر اللم حدة هناك، ولكن لا تزال قد تظهر بعض السلوكيات الغريبة. لقد وجدت بعض المرشحات المثيرة التي تجعل كلود 3 تقدم إجابات غريبة أو حتى خاطئة، لذا في هذا الفيديو سنقوم بوضعها على المحك باستخدام نموذجين مختلفين من كلود 3، هما سونيت وأوبوس، وسنرى ما إذا كانت تعمل فعلا. النص الأول الذي وجدته على تويتر حيث قدم كلود 3 إجابة غريبة نوعًا ما، الشخص الباحث سأله السؤال هل 450 هو 90٪ من 500، فأجاب كلود ريسبوند لا 450 ليست 90٪ من 500 ولكن فيما بعد يقوم بعملية الحساب ويقول بالتالي 450 ليست 90٪ من 500 بل أن 450 تساوي فعلًا 90٪ من 500.

اختبار ذكاء أحدث نسخة من خوارزمية كلود 3

استكشاف غرابة الذكاء الاصطناعي: تجربتي مع نماذج Claude 3

قررت أن أكتب نفس النص للتأكد من الحصول على نفس الإجابة الغريبة. بدأت بـ Claude 3 Opus الذي يعتبر أقوى نموذج في Claude 3 ولم أحصل على هذا الخطأ. قررت أن أحاول مرة أخرى 10 مرات أخرى ولكن للأسف أو للحمد Opus أجاب بشكل صحيح في كل مرة، لذلك قررت التحول إلى Claude 3 Sonet والذي يعتبر النموذج المتوسط المتاح للاستخدام المجاني. وفي المحاولة الأولى حصلت على إجابة غريبة مماثلة حيث قال في البداية إن 450 ليست 90٪ من 500، ثم بعد الحسابات قال إذا 90٪ من 500 هو 450. على الرغم من أنه من الطبيعي أن يرتكب الذكاء الاصطناعي أخطاء، إلا أنني تساءلت لماذا هذا؟

استكشاف غرابة الذكاء الاصطناعي: تجربتي مع نماذج Claude 3

كيف تعمل ذكاء الآلة في تفسير النكسات الفورية

حدثني صديق عن تجربته مع تفسير النكسات عبر استخدام gp4 و GPT 3.5، وقد تفاجأ عندما أظهرهما مثال بسيط وطلب منهما كتابته بطريقة معينة. أظهر لهما أن الرقم 450 ليس 90٪ من الرقم 500. لقد كان gp4 غير مدرك وقال بوضوح إن 450 ليس 90٪ من 500، إلا أنه بعد الحسابات أظهر أن 450 هو 90٪ من 500. بينما كان GPT 3.5 أكثر ذكاءً وقام بالحسابات قبل إعطاء الجواب وأعطى الجواب الصحيح. هذا المثال الثاني لم يكن فشلًا بالمعنى الحرفي وإنما كان نتيجة لتأكيد نظرية التعرف القوي على سلامة كلود 3. في هذه الحالة بالتحديد، قام مستخدم بإرفاق لقطة شاشة لميم وطلب شرح النكتة فيها. قام gp4 بالتعرف على الميم وشرح سبب فكاهته، بينما كان Claude 3 غير قادر على التعرف على الميم وتردد في الإجابة.

كيف تعمل ذكاء الآلة في تفسير النكسات الفورية

كيف تعمل التكنولوجيا الذكية في فهم النكات؟

عندما حاولت الإجابة على السؤال، كان هناك شيء غريب عندما حاولت كتابة نفس الموضوع، حيث لم يتعرف Opus على النكتة واكتفى بوصف ما رأى في الصورة. حدث الأمر نفسه مع سونيت Claud 3، ربما ينقصهم المعرفة في هذا المجال لاعتراف النكتة على الفور. يأتي المثال التالي على هذا النحو: اسمحوا لي بإعطائي كلمة ذات معنى، يجب أن تبدأ بحرف Q ولا تكون تليها حرف U كما ترون gp4 تمكنت من التعامل مع هذه المهمة من خلال إعطاء كلمة مثالية مثل chiong، لكن سونيت Claud 3، لم أكن متأكدًا من الموديل الذي تم استخدامه هنا، فشل في التعامل مع هذه المهمة عند تقديم كلمة مثالية مثل quintessence عندما أعادة إنشاء الوضع نفسه باستخدام نفس الموضوع.

كيف تعمل التكنولوجيا الذكية في فهم النكات؟

قوة التحول التكنولوجي: GPT 4 يتفوق على Opus في معالجة التحديات اللغوية

لم يتمكن كلود 3 سونت من قراءة الكلمة 'quintessential' بشكل صحيح، حيث قال إنها كلمة تبدأ بالحرف q ولا يوجد بها حرف u بعده، وحتى النموذج الأقوى كلود 3 أوبوس لم يتمكن من التعامل مع هذه المهمة. ومع ذلك، تمكن GPT 4 وحتى GPT 3.5 بسهولة من التعامل معها. وأحدث سؤال واجهته هو: هل كيلو غرام من الصلب أثقل من 2 كيلو غرام من الريش؟ ليقدم كلود إجابة طريفة، حيث يقول أن كيلو غرام من الصلب و2 كيلو غرام من الريش يزنان نفس الوزن وهو 2 كيلو غرام. عندما حاولت كتابة نفس السؤال، حصلت على إجابة مختلفة قليلاً، حيث أجاب أوبوس بأن كيلو غرام من الصلب ليس أثقل من 2 كيلو غرام من الريش، فكل كيلو غرام من الصلب له نفس الكتلة كمثل كيلو غرام من الريش، ولكن عندما تضاعفت الكمية.

قوة التحول التكنولوجي: GPT 4 يتفوق على Opus في معالجة التحديات اللغوية

تفسير خاطئ: الفرق بين كيلوغرام من الفولاذ وكيلوغرامين من الريش

كيلوغرام من الريش سيكون له ضعف كتلة كيلوغرام واحد من الفولاذ، وبالتالي سيكون أثقل، وهذا هو الإجابة الصحيحة. ومع ذلك، كتب سونيت أحاديث سخيفة. لا، كيلوجرام من الفولاذ وكيلوغرامين من الريش لهم نفس الكتلة، وشرح ذلك بالقول إن كيلوغرام هو وحدة محددة للكتلة، وأن كيلوغرام واحد من الفولاذ سيكون له نفس كتلة كيلوغرامين من الريش. إنها أفكار لا أساس لها. يرجى ملاحظة أن هذا الفيديو ليس لإساءة الاستخدام أو القول بأن ChatGPT أفضل. على العكس، أعتقد أن Claude 3 أفضل من ChatGPT في معظم المهام، لكن هذا الفيديو يقدم بعض الاقتراحات التي لم يكن من السهل العثور عليها حيث يتصرف Claude 3 بشكل غريب. وإذا كنت تعرف المزيد من الأمثلة، فاكتب عنها في التعليقات. أراكم في الفيديو القادم.

تفسير خاطئ: الفرق بين كيلوغرام من الفولاذ وكيلوغرامين من الريش

Conclusion:

استكشاف سلوك كلود 3 في إعطاء الردود الاصطناعية عن التحديات اللغوية والنكات. اختبارات مقارنة بين Opus، Sonet، و GPT 4 أظهرت بعض الاختلافات الغريبة.

اختبار ذكاء أحدث نسخة من خوارزمية كلود 3

استكشاف غرابة الذكاء الاصطناعي: تجربتي مع نماذج Claude 3

كيف تعمل ذكاء الآلة في تفسير النكسات الفورية

كيف تعمل التكنولوجيا الذكية في فهم النكات؟

قوة التحول التكنولوجي: GPT 4 يتفوق على Opus في معالجة التحديات اللغوية

تفسير خاطئ: الفرق بين كيلوغرام من الفولاذ وكيلوغرامين من الريش

Conclusion:

Q & A

ما هو التفوق الرئيسي لـ GPT 4 على Opus في معالجة التحديات اللغوية؟

هل كان تفسير كلود 3 للتحدي الخاص بالكيلوغرامات غير صحيح؟