عالمنا مليئ حقا بالمعلومات و البيانات ، امر لا يمكن لأي احد منا إنكاره ، فنحن نقتبس كل يوم مجموعة من المعلومات ، التي من شأنها ان تتحول الى بيانات قابلة للإستخدام بالطبع ، اليوم سنتحدث قليلا عن البيانات ، و إن صح التعبير سنتحدث عن البيانات الضخمة او الBig Data ، لكن قبل ان نلج الى موضوعنا هذا ، و الذي من شأنه ان يكون طويلا كفاية كوننا سنتطرق الى جميع جوانب الBig Data ، علينا اولا ان نفهم ما هي البيانات ، البيانات هي نتائج لمعلومات او معارف إستنتجناها سابقا او تم فرضها إن جاز ذلك ، لأفسر لك الأمر أكثر و بسهولة أكبر ، فنحن نعرف مسبقا مثلا ان طاقة جسم ما يساوي كتلته مضروب في مربع سرعة الضوء ، او كما معروف عند الجميع ب E = M.c² ، حسنا هذه هي المعلومة ، فكيف نستنتج إذن البيانات من هذه المعلومة ، ببساطة ، إن اخبرتك ان تتسنتج لي الطاقة الموجود في كل من الحجارة ، شاحنة ، و طائرة ، فستحصل على قيم مختلفة بإستخدامك للمعادلة السابقة ، اي ستحصل على 3 معلومات ، 3 بيانات جديدة ، و هذه هي البيانات ، و يمكننا حفظها لإستخدامها في وقت لاحق ، اليوم لن نتحدث عن هكذا نوع من بيانات ، لأن هذه البيانات أشبه بالإحصائيات ، اليوم سنتحدث عن البيانات في عالم الأحاد و الأصفار ، اليوم سنتحدث عن الBig Data .
ما هي الBig Data في مفهومها البسيط ؟
في المفهوم البسيطة ، الBig Data او البيانات الضخمة هي مجموعة من البيانات مختلفة النوع منها الكتابية و المسموعة و المقروءة و غيرها و التي يتم تكديسها و تجميعها و الإحتفاظ بها ، يجوز بالذكر ان هذه البيانات يتم تناقلها بسرعة هائلة ، بعبارة أخرى ، البيانات الضخمة هي كل معلومة يتم تداولها في عالم الحواسيب و الهواتف و الإلكترونيات بصفة عامة ، نعم ، فكل ما تنشره على الفيسبوك من منشورات و كل ما تغرده على تويتر من تغريدات ، و كل ما تنشره من صور على انستغرام يتم تسجيلها بدون شك و إدراجها ضمن قائمة الBig Data ، تعاليا على ذلك ، فليس فقط ما يتم تداوله في المواقع ، بل حتى معلومات الشركات الكبرى ، فمثلا كل المعلومات التي تلتقطها طائرة ايرباص او بوينغ ضمن رحلاتها اليومية يتم تسجيل بياناتها في الBig Data ، خلاصة القول ، البيانات الضخمة ، هي ما تداولناه سابقا ، و نتداوله الأن ، و سنتداوله لاحقا ، فحياتنا على الويب كلها مسجلة في الBig Data ، لماذا هي مسجلة ؟ و بأي تصريح يسجلونها ، كل ذلك سنعرفه في الفقرات القادمة .
ماذا عن المفهوم المعقد ؟
** يجب ان تكون لديك خلفيات في مجال البرمجة اثناء قراءتك هذه الفقرة **
إعتدنا ان تكون البيانات التي يتم تخزينها في قواعد البيانات التي نقوم بصناعتها مضبوطة ، فمثلا ، إثناء إنشاء لقاعدة بيانات مدرسة ، اقوم أيضا بإضافة جدول التلميذ يحمل حقول رقم التلميذ ، و إسمه مثلا ( بشكل أساسي ) ، ثم أحدد نوعي الحقول ، فمثلا احطي لرقم التلميذ بيانات من نوع Integer بينما اعطي لإسمه بيانات من نوع Varchar او Text مثلا ، حسنا ، الBig Data تجاوزت مفهوم الحد من نوع البيانات ، فأي نوع من البيانات قابل للتسجيل و بشكل تلقائي و دون إدراجه في جدول محدد ( ليس تماما ) سأشرح لك الأمر ، فبدلا من أخصص سيرفر ( خادم ) ليسجل كل الصور المنشورة على الفيسبوك ، فإني اخصص السيرفر لتخزين نوع محدد من الصور في جميع المواقع الأخرى ، احدد مثلا ان صور الهواتف سيتم تخزينها في هذا السيرفر ، و صور المناظر الطبيعية في هذا السيرفر ، ببساطة ، انا اجزء البيانات من اجل سهولة البحث عليها ، دعونا نعود الى نوع البيانات المخزنة ، فهي لا تنتمي لنوع محدد ، فأي نوع من البيانات قابل للتسجيل و الحفظ ، سواء كان كتابة ، صور ، فيديوهات ، صوت ، وثائق ، كلمات سر ، إشهارات ، و كل أنواع البيانات الأخرى ، يجوز بالذكر أيضا ان التخزين في الBig Data قد تجاوز مفهوم التخزين السحابي أيضا ، فليست البيانات مخزنة و محفوظة بأمان ، بل أصبح فقط لأشخاص معينين الولوج لهذه البيانات و سنحدد بالطبع من هؤلاء الأشخاص في الفقرات القادمة .
بما تتميز الBig Data ؟
بالطبع ا لBig Data تختلف إختلافا كليا عن قواعد البيانات و البيانات التقليدية التي قصدناها سابقا في الموقع ، حسنا الBig Data تمتاز بمميزات مهولة و تتلخص في 4 نقاط أساسية ، اولا حجم البيانات ، نحن لا نتحدث هنا عن مجموعة من الجيجا ، دعني اقول لك انه اخر إحصائيات و تمت سنة 2015 تقول انه في كل دقيقتين يتم تسجيل ما يقارب 7 ملايين تيرا بايت من البيانات ، رقم خيالي اليس كذلك ؟ حسنا ، مقارنة بما بين ايدينا فأعتقد انه جد جد ضئيل ، فنحن نتحدث عن كل ما يتم نشره في أزيد من 1000 موقع إجتماعي ، ناهيك عن ملايير المواقع الأخرى و لا تنسى البيانات الأخرى كما اخبرتك سابقا مثلا بيانات الطائرات و الشركات التي تعتمد على الحوسبة و غيرها ، اذا ما قارنت كل ذلك ، فأعتقد ان حجم 7 ملايين تيرابايت لا شيئ صديقي ، من خصائص الBig Data ايضا إختلاف و تنوع البيانات ، وهو امر ذكرناه في فقراتنا السابقة و لا زلنا نذكره ، الBig Data لا تقبل فقط البيانات من نوع Varchar و integer ، بل كل أنواع البيانات مرحب بها للدخول الى عالم البيانات الضخمة ، فأي بيانات يعود مصدرها الى رقم ثنائي ( 0 و 1 ) قابلة للتسجيل ضمن الBig Data ، و هذه من أفضل سماتها بالطبع على عكس قواعد البيانات الأخرى التي لا تسمح الا بأنواع البيانات التي تحددها لها انت ، سرعة تداول البيانات أيضا من مميزات الBig Data ، فكما اخبرتك انه في كل دقيقتين ملايين التيرابايت يتم تسجيلها و حفظها ، لذلك فسرعة تناقل المعلومات في الBig Data من حفظ للمعلومات او إستدعاء للمعلومات يتم بشكل سريع و فوري رغم ضخامة المعلومات المسجلة ، و اخيرا و ليس اخرا صحة المعلومات المسلة في الBig Data ، قد ينتابك الشك هل البيانات التي يتم تسجيلها في الBig Data بيانات صحيحة و ليست زائفة ، حسنا دعني أقول لك انه 95% من البيانات التي يتم تسجيلها هي بيانات حقيقية و صحيحة ، لماذا ؟ و كيف ذلك ؟ هذا ما سنشرحه في فقرتنا الموالية . يجوز بالذكر ان رباعية الخصائص هذه يشار إليها بال Four V او رباعية V .
من ينتج البيانات التي يتم تسجلها في الBig Data ؟
لأكون مع في دقة الصراحة ، الBig Data نتائج لمعلوماتنا الشخصية ، صورك ، بياناتك ، ما تفضله من مأكولات ، ذوقك في اللبس ، حياتك الشخصية كلها مسجلة في الBig Data ، نعم ، فكل ما تقوم به على الفيسبوك يتم تجميعه و إستنتاج ما تحب و ما لا تحب ، ليس الفيسبوك فقط ، بل معلوماتك في الثانوية او المدرسة ، او معلوماتك في مجال الأنترنت بكامله ، ببساطة ، إن كنت تتخفى الآن عن طريق الفيسبوك بإسم مستعار ، فأجزم انهم عرفو حقيقتك الآن ، ليس فقط انت و أنا و نحن من نملأ الBig Data ، بل معلومات الشركات الكبرى أيضا ، لا تعتقد ان معلومات الناسا ليست مسجلة في قوائم الBig Data ، و لا تعتقد ان الوصفة السحرية لإعداد Krasty Krab الخاص "بسبونج بوج" ليست مسجلة هي الأخرى في الBig Data ، لكن صديقنا " بلانكتون " لن يستطيع الوصول إليها و سنشرح ذلك في الفقرة الموالية أيضا ، نحن نعيش في عالم تقني تكنولوجي بإمتياز ،لذلك فكل ما يتم تداوله عبر الأجهزة التكنولوجية و التقنية يتم تسجيله فالBig Data ، فإن كنت تتسائل إذن عن 7 ملايين تيرابايت التي يتم تسجيلها في دقيقتين ، ففكر فقط في كمية البيانات التي تكتبها بلوحة المفاتيح او ترفعها في احد المواقع في دقيقتين فقط .
في ماذا يتم إستخدام المعلومات المخزنة في البيانات الضخمة ؟
سؤال وجيه ، لماذا اذن يتم تسجل تريليونات من البيانات في الساعة مع انها معلومات لا طائل منها ، فما الفائدة التي ستعود عليهم إذا عرفو انني من محبي البطاطا المقلية من خلال نشرها في احد منشوراتي على حسابي على الفسيبوك ؟ حسنا ، علينا اولا ان نعرف من هم الأشخاص المخول لهم الحصول على هكذا معلومات ، دعني اولا اخبرك انه تم تقنين الوصول الى معلومات البيانات الضخمة من طرف الشركات سنة 2011 ، لذلك قانونيا ، نعم يمكنهم الحصول على ما يريدون ، اما هؤلاء الأشخاص فهم الشركات الإقتصادية بالدرجة الأولى ، فالفيسبوك مثلا تستغل البيانات الضخمة لتعرف ما الذي تحبه أكثر و ما الذي تريده أكثر و ذلك لسببين ، اولا من أجل ان تقدم لك إعلانات مناسبة لك - لأنه كله قائم على الإقتصاد - لكي تستطيع تلك الإعلانات ان تثير إهتمامك ، و ثانيا من اجل معرفة وجهة نظرك في أشياء ما ، مثل رضاك عن الحكومة و دولتك او رأيك في باراك اوباما مثلا ، ليس الفيسبوك فقط ، بل كل شركات العالم و خصوصيا الإقتصادية منها لها حق الوصول للبيانات الضخمة ، فشركة كوكاكولا تراجع البيانات الضخمة الخاصة بمحبي منتوجها في المغرب لتعرف إن كانو يحبون كوكاكولا لايت او كوكاكولا زيرو ، ناهيك عن ذلك ، فالحكومات و المنظمات لها أيضا حق الوصول للبيانات الضخمة ، و تمثل سببها في أنه من الواجب عليه تعقب تحركات الشعب تفاديا لأي أعمال إرهابية او ميليشيات متعصبة ، لذلك ، فأصبح عالم الويب و التكنولوجيا يلعب دور جد جد قوي في تتبع تحركات الإرهابيين و معرفة مخططهم و اماكنهم و حتى القبض عليهم ، لذلك من وجهة النظر الأمنية ، يحرم على العاملين في المجالات العسكرية او المجالات السرية - الأسلحة على سبيل المثال - الحصول على حسابات في عالم الويب او حتى إشتغالهم عليه .
كوني مبرمج ، كيف أدخل الى مجال الBig Data ؟
** يجب ان تكون لديك خلفيات في عالم البرمجة اثناء قراءتك هذه الفقرة **
في مجال الBig Data ، لا يكفي ان تكون مبرمج فقط ، بل هناك درجات و درجات في هذا المجال ، لكن ، سنبدأ بما هو بسيط ، لنصل الى التعقيد المبسط بالطبع ، لذلك ، دعونا نبدأ بلغات البرمجة المهمة و المستخدمة في الBig Data :
Python : من اللغات القوية جدا و التي ذاع صيتها جدا ، البايثون من اللغات القوية جدا و التي يتم إستعمالها في العديد من الأشياء ، سواء برمجة تطبيقات مكتبية او برمجة مواقع و غيرها ، و تعلمها سيفيدك كثيرا في مجال الBig Data ، خصوصا ان للبايثون مستقبلا أفضل في مجال التكنولوجيات الحديثة .
SQL : بالطبع في الBig Data نحن نتعامل مع قواعد البيانات بكل تأكيد ، و الSQL من أشهر و أقوى لغات إنشاء و إدارة قواعد البيانات ، صحيح اننا سنتعامل مع بيانات ضخمة ربما تكون فيها اكواد الSQL ضئيلة ، لكن هذا لا يعني ان تعلمها لن يفيدك ، بل سيفيدك جدا جدا .
Scala : هي لغبة برمجية تعتمد على الجافا بالطبع ، الScala تعتمد على مبدأ الScalability كما جاء في إسمها ، اي انها تعتمد على المرونة و التحليل قبل كل شيئ ، لذلك ، فتعلم الScala او على الأقل أخذ فكرة عنها ليست بفكرة سيئة إن كنت تريد الولوج الى عالم الBig Data
هناك في الحقيقة العديد و العديد من اللغات و المنهجيات التي يجب عليك تعلمها ، فإلى جانب اللغات الثلاث ، هناك ايضا Matlab التي يجب عليك ان تتقنها هي الأخرى ، لا ننسى ايضا كلا من HiveQL و Pig Latin ، علاوة على ذلك ، تعلم ايضا Sas و Julia سيفيدانك في هذا الموضوع إفادة كبرى .
في مجال الBig Data - برمجيا و عمليا - ، هناك مراتب بالطبع لكل من العاملين في هذا المجال ، فلا يجوز ان يكون جميع الIT بتقنون لغات البرمجة مخصصين للتعامل مع قواعد البيانات الضخمة تلك ، لذلك ، فتم تقسيم العمل في مجال الBig Data الى المجالات التالية ، و سأحاول ان اشرحها بإختصار لكثرة مصطلحاتها و ضخامة مفاهيمها :
Data Warehousing : وهي الفئة التي تعمل على تجميع البيانات بكل حذافرها ، لكنها تقوم بعملية التنقية او العزل (Filter) فقط من اجل عزل اذا ما كانت هناك بيانات لا تناسب و لا داعي لحفظها ، او ربما قد تكون بيانات مفيرسة او ضارة ، فلا تنسى ان كل ما يتم رفعه على الأنترنت يتم تخزينه ، و لا ننسى فئة المخترقين الذين يرفعون ايضا تطبيقاتهم المضرة في عالم الويب ، لذلك ، وجب فلترة هكذا ملفات و عدم تسجيلها ، لأنها لن تكون مفيدة ، و ضارة ، و الأهم من ذلك ، انها ليست مؤكدة و صحيحة 100% و هي واحدة من خصائص الBig Data ( يمكنك الرجوع لفقرة خصائص الBig Data ) .
Data Collection : في هذا القسم يتم الإعتماد على تجميع البيانات و حفظها في المكان المخصص لها ، ذكرت لك سابقا ، انه يتم تقسيم البيانات لإجزاء صغيرة و تخزين كل فئة (Category) على سبيل المثال في جداول و قواعد محددة ، في هذه المرحلة يتم تجميع البيانات المأخوذة من Data Warehousing و تقسيمها و تجزيئها و حفظها ، و بالطبعة فلترة المعلومات الغير مفيدة او الغير كاملة ، و في الغالب يمكن تصفية الأمر الى ان يتم عزل فقط المعلومات الخاصة بمجال معين ، في حالة مثلا اذا ماتوصلت بمجموعة من البيانات و لكني لا احتاج - في تلك اللحظة - سوى البيانات المتعلقة بمجال السيارات مثلا في حالة اذا ماكنت الشركة التي اشتغل لديها مهتمة بهذا المجال .
Data Analysis : لا فائدة من بيانات متكدسة امامك ان لم تكن قادرا على فهمها و تحليلها و إستخراج الجزء الأهم منها و هو كيفية إستغلالها ، لذلك ، فمحلول قواعد البيانات ضروريون في أي مؤسسة تستخدم الBig Data ، ان احلل البيانات الواقعة بين يدي و أعرف كيف استغلها امر ضروري اذا ما كنت اريد ان اقدم لعملائي الأخرين بيانات تفيد ان السيارة ذات اللون الأحمر تجلب 55% من الزوار لموقعنا على عكس السيارة ذات اللون الأزرق ، ان احلل و افسر هكذا بيانات سيفيدني جدا جدا ، بل في الحقيقة هو اساس الBig Data ، و أحزر ماذا ، هذه المرحلة تتطلب حنكة قوية في مجال تحليل قواعد البيانات او التعامل مع قواعد البيانات بشكل عام .
Data Transformation : بعض ان مررنا بخضم مجموعة من الوسائل و المناهج و الطرق لتحليل و تعديل و فلترة البيانات القادمة لنا ، و إستنتاج خلاصة إنطلاقا من تلك البيانات عن طريق التحليل ، فقد حان الوقت لتطبيق التغييرات اللازمة من أجل ان تتخذ مرحلة تطوير الشركة / المنتوج منهجها الخاص إنطلاقا من التحليلات ، في هذه المرحلة ، نسميها Data Transformation ، ببساطة ، هي تطبيق كل ما تم إستنتاجه من بيانات على أرض الواقع ، و تطبيق سلسلة التحليلات من أجل الحصول على عائد أفضل .
كانت هذه تقريبا أهم ما يجب معرفته حول الBig Data ، ان لم تفهم احد الفقرات بالضبط او لا زالت تنتابك بعض الشكوك حول مسألة ما ، يمكنك فقط إما طرحها علينا في التعليقات ، او إستخدام محركات البحث للعثور على مرادك .