Transformer — شرح كامل بمثال واحد

أول خطوة: كل كلمة بتتحول لـ vector (قائمة أرقام). نفترض الـ embedding dimension = 4 (بالواقع 512).

هاي الأرقام الموديل بتعلمها وقت التدريب — كلمات بمعنى قريب بكون vectors قريبة من بعض.

2. Positional Encoding (ترميز الموقع)

المشكلة:

الـ Transformer بعالج كل الكلمات بنفس الوقت (بالتوازي)، فما بعرف إنه "I" أول كلمة و"learning" ثالث كلمة.

الحل:

نضيف vector خاص لكل موقع بالجملة باستخدام دوال sin و cos:

حيث: pos = موقع الكلمة (0, 1, 2, ...) | i = رقم البُعد | d = حجم الـ embedding (= 4)

الحساب:

الجمع (Embedding + Position):

3. Self-Attention (آلية الانتباه الذاتي)

الفكرة:

كل كلمة بتسأل: "مين من الكلمات الثانية مهم إلي عشان أفهم معناي؟"

الخطوة الأولى: إنشاء Q, K, V

الخطوة الثانية: حساب Attention Scores

4. Multi-Head Attention (انتباه متعدد الرؤوس)

الفكرة:

بدل ما نعمل attention وحدة، نعمل 8 بالتوازي — كل وحدة اسمها head.

ليش؟

الخطوات:

بمثالنا (بنبسط لـ 2 heads):

5. Residual Connection + Layer Normalization

Residual (Skip) Connection:

يعني: المدخل الأصلي بنجمعه مع مخرج الطبقة.

Layer Normalization:

حيث: μ = المتوسط | σ² = التباين | γ, β = معاملات قابلة للتعلم

بمثالنا:

6. Feed-Forward Network (شبكة أمامية)

بعد الـ attention، كل كلمة بتمر بشبكة عصبية صغيرة:

بمثالنا:

7. Decoder — الجزء اللي بولّد الترجمة

الـ Decoder بشتغل كلمة كلمة. نفترض وصلنا لمرحلة توليد الكلمة الثالثة وعندنا:

7.1 Masked Self-Attention (انتباه مقنّع)

7.2 Cross-Attention (انتباه متقاطع)

8. Linear + Softmax (التنبؤ بالكلمة)

9. ملخص العملية الكاملة

┌──────────────────────── ENCODER ────────────────────────┐ │ │ │ "I love learning" │ │ ↓ │ │ [Input Embedding] → vectors لكل كلمة │ │ ↓ │ │ [+ Positional Encoding] → إضافة معلومات الموقع │ │ ↓ │ │ [Multi-Head Self-Attention] → كل كلمة تنتبه للباقي │ │ ↓ │ │ [+ Residual + LayerNorm] │ │ ↓ │ │ [Feed-Forward Network] → شبكة عصبية لكل كلمة │ │ ↓ │ │ [+ Residual + LayerNorm] │ │ ↓ │ │ ══► مخرجات الـ Encoder (تُرسل للـ Decoder) │ │ │ └──────────────────────────────────────────────────────────┘ ┌──────────────────────── DECODER ────────────────────────┐ │ │ │ "أنا أحب" (الكلمات اللي ولّدناها لحد هلأ) │ │ ↓ │ │ [Output Embedding + Positional Encoding] │ │ ↓ │ │ [Masked Multi-Head Self-Attention] → ما بشوف المستقبل │ │ ↓ │ │ [+ Residual + LayerNorm] │ │ ↓ │ │ [Cross-Attention] → Q من هون، K+V من الـ Encoder │ │ ↓ │ │ [+ Residual + LayerNorm] │ │ ↓ │ │ [Feed-Forward Network] │ │ ↓ │ │ [+ Residual + LayerNorm] │ │ ↓ │ │ [Linear → Softmax] → احتمال كل كلمة بالقاموس │ │ ↓ │ │ ══► "التعلم" ← الكلمة اللي احتمالها أعلى │ │ │ └──────────────────────────────────────────────────────────┘

المعلومة	القيمة
عدد طبقات الـ Encoder بالورقة الأصلية	6
عدد طبقات الـ Decoder	6
حجم الـ Embedding (d_model)	512
عدد الـ Heads	8
حجم كل Head (dₖ)	512/8 = 64
حجم الـ Feed-Forward الداخلي	2048
الورقة الأصلية	"Attention Is All You Need" (2017)
المؤلفين	Vaswani et al. (Google)
الـ Optimizer	Adam (مع learning rate متغير)

Transformer — شرح كامل بمثال واحد خطوة بخطوة

1. Input Embedding (تحويل الكلمات لأرقام)

2. Positional Encoding (ترميز الموقع)

المشكلة:

الحل:

الحساب:

الجمع (Embedding + Position):

3. Self-Attention (آلية الانتباه الذاتي)

الفكرة:

الخطوة الأولى: إنشاء Q, K, V

الخطوة الثانية: حساب Attention Scores

4. Multi-Head Attention (انتباه متعدد الرؤوس)

الفكرة:

ليش؟

الخطوات:

بمثالنا (بنبسط لـ 2 heads):

5. Residual Connection + Layer Normalization

Residual (Skip) Connection:

Layer Normalization:

بمثالنا:

6. Feed-Forward Network (شبكة أمامية)

بمثالنا:

7. Decoder — الجزء اللي بولّد الترجمة

7.1 Masked Self-Attention (انتباه مقنّع)

7.2 Cross-Attention (انتباه متقاطع)

8. Linear + Softmax (التنبؤ بالكلمة)

9. ملخص العملية الكاملة

10. معلومات أساسية للامتحان