ما هو Gemini؟ جوجل تطلق Gemini أحدث تقنية ذكاء اصطناعي حتى اليوم. كما نعلم، أطلقت OpenAI شات جي بي تي منذ عام وأسبوع تقريبًا، وأصبحت الشركة والمنتج على الفور أكبر الأشياء في مجال الذكاء الاصطناعي. بينما الآن، جوجل – الشركة التي أنشأت الكثير من التكنولوجيا الأساسية وراء طفرة الذكاء الاصطناعي الحالية، والتي أطلقت على نفسها اسم منظمة “الذكاء الاصطناعي أولاً” منذ ما يقرب من عقد من الزمن، والتي تفاجأت بشكل واضح ومحرج بمدى جودة ChatGPT و مدى السرعة التي سيطرت بها تقنية OpenAI على الصناعة – أصبحت أخيرًا جاهزة للرد مع تقنية جيميني الجديدة. وعليه، دعونا نتعرف في هذا المقال من فهرس على Gemini: أحدث إصدارات الذكاء الاصطناعي التي ستقضي على Chat-GPT.
ما هو Gemini
إن Gemini هو نموذج ذكاء اصطناعي جديد وقوي وأكثر تعددية من جوجل يمكنه فهم النصوص والصور ومقاطع الفيديو والصوت أيضًا. باعتباره نموذجًا متعدد الوسائط، يوصف Gemini بأنه قادر على إكمال المهام المعقدة في الرياضيات والفيزياء ومجالات أخرى، بالإضافة إلى فهم وإنشاء تعليمات برمجية عالية الجودة في لغات البرمجة المختلفة. وعليه، يعتبر جيميني تطورًا هائلاً في نموذج الذكاء الاصطناعي وأكثر كفاءة من النماذج السابقة التي أطلقتها جوجل، حيث تم تدريبه باستخدام وحدات معالجة Tensor الخاصة بجوجل وهو أسرع وأرخص في التشغيل.
“اقرأ أيضًا: مايكروسوفت كوبايلوت“
من صنع Gemini
تم إنشاء Gemini بواسطة جوجل وألفابيت Alphabet، الشركة الأم لشركة جوجل. وتم إصداره باعتباره نموذج الذكاء الاصطناعي الأكثر تقدمًا للشركة حتى الآن. بينما عرض الرئيس التنفيذي لشركة جوجل، ساندر بيتشاي، هذا المفهوم للمرة الأولى في مؤتمر I/O للمطورين في يونيو 2023. قدم جوجل ديب مايند (Google DeepMind) أيضًا مساهمات كبيرة في تطوير جيميني .
يقول دينيس هاسابيس، الرئيس التنفيذي والمؤسس المشارك لشركة Google DeepMind: “إن جيميني هو نتيجة لجهود تعاونية واسعة النطاق بذلتها فرق عبر جوجل، بما في ذلك زملائنا في Google Research. لقد تم تصميمه من الألف إلى الياء ليكون متعدد الوسائط، مما يعني أنه يمكنه التعميم والفهم بسلاسة والعمل عبر ودمج أنواع مختلفة من المعلومات بما في ذلك النص والتعليمات البرمجية والصوت والصورة والفيديو”.
ما هي إصدارات Gemini
تصف جوجل برنامج Gemini بأنه أكثر من مجرد نموذج واحد للذكاء الاصطناعي، فهو نموذج مرن قادر على العمل على كل شيء بدءًا من مراكز بيانات Google وحتى الأجهزة المحمولة. ولتحقيق قابلية التوسع هذه، تم إصدار جيميني بثلاث إصدارات بأحجام مختلفة، وهي:
- إصدار خفيف يسمى Gemini Nano.
- إصدار أقوى يسمى Gemini Pro.
- إصدار أكثر قدرة يسمى Gemini Ultra.
تم إطلاق نموذج جيميني بعدة طرق حتى الآن، حيث يعمل Bard الآن بواسطة جيميني Pro، وسيحصل مستخدمو Pixel 8 Pro على بعض الميزات الجديدة بفضل جيميني Nano. بينما سيتمكن المطورون والعملاء الشركات من الوصول إلى جيميني Pro من خلال Google Generative AI Studio أو Vertex AI في Google Cloud اعتبارًا من 13 ديسمبر 2023.
Gemini Nano
وهو طراز مصمم للعمل على الهواتف الذكية محليًا، وتحديدًا Google Pixel 8، وغير متصل على أجهزة Android. وهو مصمم لأداء المهام على الجهاز التي تتطلب معالجة فعالة للذكاء الاصطناعي دون الاتصال بخوادم خارجية، مثل اقتراح الردود داخل تطبيقات الدردشة أو تلخيص النص.
Gemini Pro
هو الطراز المصمم ليعمل في مراكز بيانات Google، وذلك لتشغيل أحدث إصدار من برنامج الدردشة الآلي Bard الخاص بالشركة والذي يعمل بالذكاء الاصطناعي. إنه قادر على تقديم أوقات استجابة سريعة وفهم الاستعلامات المعقدة.
Gemini Ultra
على الرغم من أنه لا يزال غير متاح للاستخدام على نطاق واسع، تصف جوجل نموذج Gemini Ultra بأنه النموذج الأكثر قدرة، حيث يتجاوز “النتائج الحديثة الحالية في 30 معيارًا أكاديميًا من أصل 32 معيارًا أكاديميًا مستخدمًا على نطاق واسع في أبحاث نماذج اللغات الكبيرة (LLM) و تطور.” لقد تم تصميمه للمهام المعقدة للغاية ومن المقرر إصداره بعد الانتهاء من مرحلة الاختبار الحالية.
“اقرأ أيضًا: برنامج ثريدز”
ما هي الخصائص الرئيسية لنموذج Gemini وكيف يمكن استخدامه في منتجات جوجل؟
تتضمن الخصائص الرئيسية لنموذج Gemini ما يلي:
- فهم النصوص: يمكن لـ Gemini تحسين قدرته على فهم النصوص وتلخيص المستندات والتفكير وكتابة رموز البرمجة.
- التعامل مع الوسائط المتعددة: يمكن لجيميني التعامل مع الصور ومقاطع الفيديو والصوت، ويمكنه فهم حركات اليد في الفيديو وحل الألغاز المرسومة بالنقاط.
- تحسين القدرات الذكية: يمكن لـ Gemini تحسين قدرات الذكاء الاصطناعي في المهام المعقدة مثل تلخيص المستندات والاستدلال وكتابة رموز البرمجة.
- تحسين تجربة المستخدم: يمكن لجيميني تحسين تجربة المستخدم من خلال توفير ميزات مثل تلخيص المحادثات في تطبيق Recorder واقتراح ردود الرسائل في تطبيق Gboard.
يتم استخدام نموذج جيميني في منتجات جوجل مثل هواتف Google Pixel 8 وتطبيقات مثل Recorder وGboard. يعمل جيميني على تحسين قدرات هذه المنتجات وتوفير تجارب مستخدم محسنة في العديد من المجالات مثل التلخيص والاستجابة الذكية وتحسين الصور ومقاطع الفيديو والمزيد.
ما هي اللغات التي يمكن لنموذج Gemini فهمها والتعامل معها
يدعم نموذج Gemini عدة لغات ويمكنه التعامل معها بشكل فعال. وفقًا للمعلومات المتاحة، إليك قائمة باللغات التي يمكن لنموذج جيميني فهمها والتعامل معها:
- اللغة الإنجليزية: نموذج جيميني يدعم اللغة الإنجليزية ويمكنه فهمها والتعامل معها بشكل كامل.
- اللغات الأخرى: وفقًا لمصادر متعددة، يعمل فريق Google على دعم المزيد من اللغات لنموذج جيميني في المستقبل
- القريب.
كيف يمكنني الوصول إلى Gemini
تتوفر الآن منتجات جيميني على منصة جوجل بإصداريه Nano وPro، مثل هاتف Pixel 8 والروبوت Bard chatbot على الترتيب. تخطط جوجل لدمج منصة جيميني تدريجياً في خدمات البحث والإعلانات وChrome وغيرها من الخدمات.
ابتداءً من 13 ديسمبر، سيتمكن المطورون وعملاء المؤسسات من الوصول إلى جيميني Pro عبر جيميني API في Google AI Studio وGoogle Cloud Vertex AI. أما المطورون الذين يعملون على منصة Android، فسيتمكنون من الوصول إلى جيميني Nano عبر AICore، والذي سيكون متاحاً في نمط معاينة مبكرة.
“اقرأ أيضًا: تطبيق شات جي بي تي ChatGPT يصل إلى السعودية“
كيف يختلف Gemini عن GPT-4
بمقارنة جيميني مع GPT-4، تقول جوجل (Google) إن جيميني يتفوق على GPT-4 في 30 معيارًا من أصل 32 معيارًا. وبالأخذ بعين الاعتبار أن كلا النوذجين هما روبوتات ذكاء اصطناعي، وبالأخذ بعين الاعتبار أيضًا أن مهام جيميني تقتصر حاليًا على كتابة النصوص وابتكار الوسائط المتعددة، فيمكننا مقارنة Gemini مع GPT-4 على الشكل التالي:
بالنسبة للنص:
الإمكانية | المعيار | الوصف | Gemini Ultra | ChatGPT-4 |
النص | ||||
بشكل عام | MMLU (فهم اللغة متعدد المهام الهائل) | تمثيل الأسئلة في 75 موضوعًا (بما في ذلك العلوم والتكنولوجيا والهندسة والرياضيات والعلوم الإنسانية وغيرها) | 90.0% | 86.4% |
المنطق | Big-Bench Hard | مجموعة متنوعة من المهام الصعبة التي تتطلب تفكيرًا متعدد الخطوات | 83.6% | 83.1% |
DROP | فهم القراءة (درجة فلوريدا) | 82.4 | 80.9 | |
HellaSwag | المنطق المنطقي للمهام اليومية | 87.8% | 95.3% | |
الرياضيات | GSM8K | العمليات الحسابية الأساسية (بما في ذلك مشاكل الرياضيات في المدرسة الابتدائية) | 94.4% | 92.0% |
MATH | مشاكل الرياضيات الصعبة (بما في ذلك الجبر والهندسة وما قبل حساب التفاضل والتكامل وغيرها) | 53.2% | 52.9% | |
الرموز | HumanEval | توليد كود بايثون | 74.4% | 67.0% |
Natura12Code | توليد كود بايثون. مجموعة البيانات الجديدة HumanEval-Iike، لم يتم تسريبها على الويب | 74.9% | 73.9% |
بينما بالنسبة للوسائط المتعددة:
الإمكانية | المعيار | الوصف | Gemini Ultra | ChatGPT-4 |
الوسائط المتعددة | ||||
الصور | MMMU | مشاكل الاستدلال على مستوى الكلية متعددة التخصصات | 59.4% | 56.8% |
VQAv2 | فهم الصورة الطبيعية | 77.8% | 77.2% | |
TextVQA | التعرف الضوئي على الحروف على الصور الطبيعية | 82.3% | 78.0% | |
DocVQA | فهم المستندات النصية | 90.9% | 88.4% | |
Infographic VQA | فهم الانفوجرافيك | 80.3% | 75.1% | |
MathVista | المنطق الرياضي في السياقات البصرية | 53.0% | 49.9% | |
مقاطع الفيديو | VATEX | التسميات التوضيحية للفيديو باللغة الإنجليزية (CIDEr) | 62.7 | 56.0 |
Perception Test MCQA | إجابة السؤال بالفيديو | 54.7% | 46.3% | |
الصوت | CoV0ST 2
(21 languages) |
الترجمة التلقائية للكلام
(درجة بلو) |
40.1% | 29.1% |
FLEURS
(62 languages) |
التعرف التلقائي على الكلام (استنادًا إلى معدل خطأ الكلمات، الأقل هو الأفضل) | 7.6% | 17.6% |
باختصار، يبدو أن تقنية Gemini هي سابقة في مجال الذكاء الاصطناعي، وتستحق التعرف عليها بشكل أكبر. وبصرف النظر عن أن جيميني لا تزال حاليًا قيد التجريب، إلا أن ذلك لن يقلل من شأنها في أنها ستكون واحدة من الخيارات المثيرة للاهتمام التي ستجذب انتباه الجميع في المستقبل القريب.