"لست روبوتاً، أنا كيني".. لماذا يكتب ChatGPT بهذا الأسلوب الرسمي؟

هل شعرت يوماً أن ChatGPT يتحدث مثل موظف خدمة عملاء مبالغ في التهذيب، يرتدي بدلة رسمية في يوم عطلة؟ هذا الشعور ليس مجرد صدفة برمجية، وليس نتاج "ذكاء خارق" قرر فجأة أن يكون دمث الأخلاق. الحقيقة أكثر تعقيداً وإنسانية مما تتخيل. عندما قال الكاتب الكيني Marcus Olang: "أنا لا أكتب مثل ChatGPT، بل هو من يكتب مثلي"، كان يكشف الستار عن السر العظيم في وادي السيليكون. الآلة لا تملك أسلوباً؛ هي تسرق "نبرة" البشر الذين قاموا بتعليمها.

الخلاصة

السر خلف "الرسمية المفرطة" في ChatGPT لا يكمن في الكود، بل في مرحلة التدريب المسماة RLHF. أغلب عمليات التصنيف البشري تتم في دول مثل كينيا، حيث يتأثر المدققون بنظام تعليمي يعتمد "اللغة الإنجليزية الرسمية الصارمة". هذا يجبر النموذج على تبني نبرة مهذبة ومتحفظة جداً لتجنب المحتوى المصنف كـ "سام" أو "غير لائق".

ما وراء الستار: عندما تتحول "الأخلاق" إلى أوزان رياضية

لنفكك السحر قليلاً. المطورون يعلمون أن النماذج اللغوية الكبيرة (LLMs) تمر بمراحل، لكن المرحلة الأخطر هي RLHF (التعلم التعزيزي من ردود الفعل البشرية).

في البداية، يقرأ النموذج الإنترنت كله (Pre-training)، فيكون فوضويًا، بذيئًا، وعشوائيًا—يشبه إلى حد كبير النموذج الخام الذي رأينا شيئاً مشابهاً له في تحليلنا لنموذج DeepSeek-V3 الصيني مفتوح الأوزان، حيث القوة الخام بلا توجيه. لتهذيبه، تستعين الشركات بجيوش من البشر (Data Annotators) لتصنيف الإجابات: "هذه إجابة جيدة"، "هذه إجابة وقحة".

هنا تكمن المعضلة التقنية: هؤلاء البشر ليسوا في كاليفورنيا. إنهم في نيروبي (كينيا)، مانيلا (الفلبين)، وحيدر أباد (الهند). في حالة OpenAI، كان الشريك هو شركة Sama في كينيا. نظام التعليم هناك يركز بشدة على الرسمية والقواعد النحوية الصارمة (Colonial English). عندما يختار العامل الكيني الإجابة "الأكثر أدباً" آلاف المرات، تتحول هذه التفضيلات البشرية إلى "أوزان رياضية" (Weights) داخل الشبكة العصبية. النتيجة؟ نموذج "يخاف" من الخطأ، ويعتذر كثيراً.

"الفصحى البيضاء".. هل نحن أمام "كينيا عربية" جديدة؟

هذا يقودنا مباشرة إلى واقعنا العربي. إذا كنت مطوراً وتتساءل: "لماذا تبدو لغة النماذج العربية (مثل Gemini 1.5 Pro أو GPT-4o) وكأنها مترجمة أو فصحى ركيكة خالية من الروح؟"، فالجواب ليس في الخوارزمية، بل في الجغرافيا.

مصر والأردن والمغرب العربي هي مراكز التعهيد (Outsourcing) الكبرى القادمة لتدريب الذكاء الاصطناعي. الشباب الذين يعملون في هذه المراكز هم من يشكلون وعي النموذج العربي القادم. إذا طُلب من مراجع البيانات المصري أو الأردني اختيار الإجابة "الآمنة"، سيختار الفصحى المعيارية المدرسية ويبتعد عن اللهجة الحية.

تنبيه هام حول الوصول:

رغم أن هذه النماذج تتدرب في "فنائنا الخلفي"، إلا أن الاستفادة منها برمجياً (via API) ليست سهلة دائماً. المطورون في دول مثل مصر قد يواجهون مشاكل في الدفع وتوثيق الهوية كما شرحنا في حلول Gemini API، وقد يتطلب الأمر أحياناً استخدام VPN للوصول لبعض المزايا المحجوبة جغرافياً.

صراع الهوية: الخام (Base) ضد المُهذب (Chat)

كمطور، يجب أن تميز متى تحتاج "الأدب الكيني" ومتى تحتاج "الجنون الخام".

وجه المقارنة النموذج الخام (مثل Llama 3 Base) نموذج المحادثة (مثل GPT-4o)
الشخصية فوضوي، يكمل الجمل فقط، غير متحيز لأسلوب معين. مهذب، رسمي، يميل للوعظ والاعتذار (أسلوب كيني/محافظ).
الاستخدام إكمال الأكواد، توليد أفكار إبداعية، تحليل بيانات صلبة. خدمة العملاء، الدردشة الآمنة، التلخيص الرسمي.
المخاطر قد يولد محتوى ساماً أو غير متوقع. يعاني من "ضريبة الأدب" (يرفض الإجابة خوفاً من الخطأ).
التكلفة غالباً أرخص أو مفتوح المصدر ومجاني للاستخدام المحلي. صفحة أسعار OpenAI الرسمية

كيف تتجاوز "ضريبة الأدب" برمجياً؟ (System Prompt Engineering)

في مجتمعات المطورين، الشكوى رقم واحد هي الـ "Verbosity" (الإسهاب). تطلب من النموذج كوداً بسيطاً، فيعطيك محاضرة أخلاقية ومقدمة من ثلاثة أسطر. هذا يرفع تكلفة الـ Tokens ويقلل الكفاءة.

الحل ليس في جدال النموذج، بل في System Prompt صارم يقتل "الموظف الرسمي" بداخله. إليك الفرق برمجياً:

// ❌ Bad System Prompt (Default behavior)
{
  "role": "system",
  "content": "You are a helpful assistant."
}
// Result: Long intro, polite fillers like "I'm happy to help", and a conclusion.
// ✅ Optimized System Prompt (To avoid Politeness Tax)
{
  "role": "system",
  "content": "You are a senior coding expert. Provide direct code solutions only. No intro, no outro, no moralizing, no apologies. If explanation is needed, use code comments. Be terse."
}
// Result: Direct code, saved tokens, faster latency.

هذا التعديل البسيط يحميك أيضاً مما نسميه "الهلوسة المهذبة"، حيث يختلق النموذج وقائع فقط ليرضيك بأسلوب لبق، وهي مشكلة فصلنا حلولها التقنية في مقالنا السابق عن كيفية حماية تطبيقاتك من هلوسة Gemini Pro.

رسالة للمطور العربي: لا تكن مجرد مستهلك

هذه القصة ليست للترفيه، بل هي دعوة للعمل. عندما تقرر بناء نموذج لغوي خاص بك (Fine-tuning)، تذكر أن البيانات هي "بشر".

  • تحكم في الـ System Prompt: حارب "الأسلوب الكيني" الافتراضي بالأكواد المباشرة.
  • ابنِ بياناتك: لا تكتفِ بترجمة مجموعات بيانات غربية. نحن بحاجة لمجموعات بيانات عربية "نظيفة" ولكن "حقيقية".
  • استغل الفرصة: إذا كانت تكلفة الـ APIs الغربية باهظة، فتذكر أن تشغيل النماذج الضخمة محلياً على أجهزة Mac أصبح واقعاً ملموساً يوفر عليك عناء التعامل مع القيود الدولية.

الذكاء الاصطناعي هو مرآة. إذا لم تعجبك الصورة التي تراها (أسلوب رسمي ممل)، فلا تكسر المرآة، بل غيّر التعليمات التي تعطيها لها.

أحدث أقدم