بناء مسار بيانات متكامل (ETL Pipeline) لتحليل بيانات الرحلات باستخدام Python و PostgreSQL
منذ 3 أيام
عرض العمل
الوصف
قمت بتطوير مشروع متكامل لمعالجة وهندسة البيانات الضخمة (Big Data) يهدف إلى تحويل بيانات رحلات التاكسي الخام إلى نموذج بيانات منظم وقابل للتحليل لدعم اتخاذ القرار.
المراحل التقنية للمشروع:
مرحلة الاستخراج والتنظيف (Extraction & Cleaning): استخدام Pandas للتعامل مع ملفات Parquet ضخمة، معالجة القيم المفقودة، وتنظيف البيانات لضمان دقتها بنسبة 100%.
هندسة البيانات (Data Modeling): تصميم نموذج بيانات Star Schema من خلال تقسيم البيانات إلى جداول أبعاد (Dimension Tables) وجدول حقائق (Fact Table) لتحسين أداء الاستعلامات.
مرحلة التحميل (Data Loading): بناء سكربت أتمتة باستخدام Psycopg2 لرفع البيانات المعالجة إلى قاعدة بيانات PostgreSQL بكفاءة عالية.
التحليل والاستعلام (Analysis): كتابة استعلامات SQL متقدمة (مثل Window Functions) لاستخراج مؤشرات الأداء الرئيسية (KPIs) مثل الإيرادات اليومية والتراكمية.
الهدف المحقق: تحويل أكثر من 2.8 مليون سجل خام إلى قاعدة بيانات منظمة توفر رؤى تحليلية فورية عن أداء العمليات.
التفاصيل
| المشاهدات | 0 |
| المفضلة | 0 |
| القسم | أمور اخرى |
حساب المستخدم
العربية
English