أطلقت الشركة الصينية DeepSeek نموذجًا مجانيًا جديدًا للذكاء الاصطناعي يُدعى DeepSeek V3.
وحسب موقع the hindu، فإن DeepSeek V3 يتفوق على النماذج المجانية المشابهة، وحتى النماذج المدفوعة مثل GPT-4o من OpenAI في عدة معايير تقييمية.
إذ يتميز هذا النموذج بـ 671 مليار بنية، ما يمكنه من توليد النصوص، وكتابة الأكواد البرمجية، وأداء مهام أخرى ذات صلة.
وهذا يقلل من تكاليف الأجهزة، إذ تنشط الشبكة العصبية ذات الصلة فقط عند إدخال أمر معين، بدلًا من تنشيط نموذج اللغة الكبير بالكامل، وتتكون كل شبكة عصبية من 34 مليار بنية.
وذكرت شركة DeepSeek أن تدريب النموذج أُعد في نحو 2788 ألف ساعة من معالجة وحدة H800 GPU، بتكلفة تقديرية تبلغ 5.57 مليون دولار، إذا كانت تكلفة الاستئجار دولارين لكل ساعة GPU.
وأشارت إلى أن هذه التكلفة أقل بكثير من الملايين التي تنفقها شركات التكنولوجيا الكبرى في الولايات المتحدة على تدريب نماذج اللغة الكبيرة.
كما تفوق على GPT-4o في معظم الاختبارات، باستثناء SimpleQA الذي يركز على اللغة الإنجليزية وFRAMES.
وكان النموذج الوحيد الذي تفوق على DeepSeek V3 في معظم المعايير هو Claude 3.5 Sonnet من Anthropic، والذي تفوق في اختبارات مثل MMLU-Pro، IF-Eval، GPQA-Diamond، SWE-Verified، وAider-Edit.
ديسمبر 2024، الساعة 02:00 مساءً.
- دقة عالية في الإجابات: جرى تدريبه على كميات هائلة من البيانات، ما يمكنه من تقديم إجابات دقيقة وموثوقة في مجموعة واسعة من الموضوعات.
- القدرة على التعلم المستمر: يمكنه تحسين أدائه باستمرار من خلال التفاعل مع المستخدمين والتعلم من الأسئلة والإجابات السابقة.
- سرعة الاستجابة: مصمم لتقديم إجابات سريعة وفورية، ما يجعل المستخدم يحصل على المعلومات التي تحتاج إليها في أسرع وقت ممكن.
- التكامل مع منصات مختلفة: يمكنه العمل على منصات متعددة، بما في ذلك مواقع الويب وتطبيقات الهاتف المحمول، ما يسهل الوصول إليه من أي مكان.
- القدرة على التعامل مع مهام معقدة: يمكنه التعامل مع مهام معقدة، مثل تحليل البيانات، وتوليد النصوص، وحتى المساعدة في كتابة الأكواد البرمجية.
- التفاعل الطبيعي: صُمم لتوفير تجربة تفاعل طبيعية تشبه المحادثة البشرية، ما يجعل التواصل معه أكثر سلاسة وودية.
وحسب موقع the hindu، فإن DeepSeek V3 يتفوق على النماذج المجانية المشابهة، وحتى النماذج المدفوعة مثل GPT-4o من OpenAI في عدة معايير تقييمية.
إذ يتميز هذا النموذج بـ 671 مليار بنية، ما يمكنه من توليد النصوص، وكتابة الأكواد البرمجية، وأداء مهام أخرى ذات صلة.
البرنامج أُعد في 2788 ألف ساعة
واستخدم معدو البرنامج بنية خليطة بين (Mixture of Experts أو MoE)، والتي تتكون من عدة شبكات عصبية، كل منها مُحسّن لأنواع مختلفة من المهام.وهذا يقلل من تكاليف الأجهزة، إذ تنشط الشبكة العصبية ذات الصلة فقط عند إدخال أمر معين، بدلًا من تنشيط نموذج اللغة الكبير بالكامل، وتتكون كل شبكة عصبية من 34 مليار بنية.
وذكرت شركة DeepSeek أن تدريب النموذج أُعد في نحو 2788 ألف ساعة من معالجة وحدة H800 GPU، بتكلفة تقديرية تبلغ 5.57 مليون دولار، إذا كانت تكلفة الاستئجار دولارين لكل ساعة GPU.
وأشارت إلى أن هذه التكلفة أقل بكثير من الملايين التي تنفقها شركات التكنولوجيا الكبرى في الولايات المتحدة على تدريب نماذج اللغة الكبيرة.
تفوق على النماذج الأخرى
وفقًا لورقة تقنية صدرت مع الإعلان عن انطلاق DeepSeek V3، تفوق النموذج على نماذج مجانية مثل Llama-3.1-405B وQwen 2.5-72B في معظم المعايير.كما تفوق على GPT-4o في معظم الاختبارات، باستثناء SimpleQA الذي يركز على اللغة الإنجليزية وFRAMES.
وكان النموذج الوحيد الذي تفوق على DeepSeek V3 في معظم المعايير هو Claude 3.5 Sonnet من Anthropic، والذي تفوق في اختبارات مثل MMLU-Pro، IF-Eval، GPQA-Diamond، SWE-Verified، وAider-Edit.
ديسمبر 2024، الساعة 02:00 مساءً.
مميزات DeepSeek V3
- دعم متعدد اللغات: قادر على فهم والتفاعل بعدة لغات، بما في ذلك العربية، ما يسمح بالتواصل مع مستخدمين من خلفيات متنوعة.- دقة عالية في الإجابات: جرى تدريبه على كميات هائلة من البيانات، ما يمكنه من تقديم إجابات دقيقة وموثوقة في مجموعة واسعة من الموضوعات.
- القدرة على التعلم المستمر: يمكنه تحسين أدائه باستمرار من خلال التفاعل مع المستخدمين والتعلم من الأسئلة والإجابات السابقة.
- سرعة الاستجابة: مصمم لتقديم إجابات سريعة وفورية، ما يجعل المستخدم يحصل على المعلومات التي تحتاج إليها في أسرع وقت ممكن.
- التكامل مع منصات مختلفة: يمكنه العمل على منصات متعددة، بما في ذلك مواقع الويب وتطبيقات الهاتف المحمول، ما يسهل الوصول إليه من أي مكان.
- القدرة على التعامل مع مهام معقدة: يمكنه التعامل مع مهام معقدة، مثل تحليل البيانات، وتوليد النصوص، وحتى المساعدة في كتابة الأكواد البرمجية.
- التفاعل الطبيعي: صُمم لتوفير تجربة تفاعل طبيعية تشبه المحادثة البشرية، ما يجعل التواصل معه أكثر سلاسة وودية.
0 تعليق