الثلاثاء، 10 مارس، 2015

وادي التقنية

وادي التقنية

Link to وادي التقنية

لماذا عليك البدء بتعلم لغة R على الفور

Posted: 10 Mar 2015 03:06 AM PDT

لقد سمعنا جميعاً خلال حياتنا عمّا يسمى بالبيانات الكبيرة أو الضخمة. وقد قامت العديد من الشركات على مدى السنوات القليلة الماضية بالاستثمار في Hadoop و NoSQL و مخازن البيانات، من أجل جمع وتخزين الكميات الهائلة من البيانات الجديدة التي تزداد كل يوم. وحتى عند الاعتماد على منصات مفتوحة المصدر كمنصة Hadoop، يمكن لهذه الاستثمارات أن تكلف ملايين الدولارات للشركات الكبيرة من أجل الأجهزة الجديدة والموظفين الجدد وعدد الساعات التي يقضيها الموظفون من أجل تنفيذ النظم والإجراءات الجديدة.

وقد حان الوقت الآن لهذه الاستثمارات كي تؤتي ثمارها.

وقد حصل ذلك عبر ما يسمى بعلوم البيانات، أي استخراج المعارف من البيانات. الأمر هنا أكثر من مجرد جدولة البيانات وإعداد التقارير المتعلقة بهذا، فعلوم البيانات تجمع بين علوم الكمبيوتر، التحليل الإحصائي، والفهم العميق لاحتياجات العمل من أجل فصل الارتباطات عن الأسباب المتعلقة بها، بالإضافة إلى توقع النتائج المستقبلية والمخاطر. وفقاً لـ TheNextWeb فإن علم البيانات هو "تغيير طريقة فهم معلومات الأعمال". إن زيادة توافر البيانات جعلت من علم البيانات عاملاً حاسماً ومهماً في تطوير البيانات وفي إنشاء وإدارة الابتكارات الجديدة المعقدة للغاية بالنسبة للنظم الآلية، وخصوصاً في عالم يولي للخصوصية أهمية قصوى.

وكنتيجة لذلك، نجد أن الشركات تقوم بتوظيف أعداد هائلة من علماء البيانات. وقد ارتفعت إعلانات التوظيف لعلماء البيانات بشكل هائل منذ بداية عام 2011. وقد حصل الكثير من النمو في المهارات المتعلقة بمهارات علوم البيانات بشكل عام، حيث أن مجال علوم البيانات أخذ يميل نحو مسميات وظيفية تخصصية. وفي الوقت نفسه، نجد أن وظائف علوم البيانات تحظى برواتب مثيرة للإعجاب: بمتوسط يقدر بـ 98،000$ عالمياً، وبـ 144،000$ في الولايات المتحدة الأمريكية، وذلك وفقاً لآخر دراسات الرواتب لوظائف علوم البيانات من شركة أوريلي ميديا الأمريكية.

 

مع وجود هذا الطلب الكبير والرواتب العالية لمجال علوم البيانات، فليس من المستغرب أن نجد منافسة شديدة لتوظيف علماء البيانات والتعاقد معهم. وكنتيجة لذلك، فإن الشركات التي اعتمدت في السابق على إرث المنصات الخاصة من أجل تحليل البيانات الإحصائي، أخذت تتبنى الآن بديلاً جديداً، وهو منصة R مفتوحة المصدر. وحتى الآن، تم اختيارها من قِبل أكثر من مليوني شخص من علماء البيانات والإحصائيين في جميع الأنحاء العالم.

R هي منصة برمجية مفتوحة المصدر من أجل تحليل البيانات الإحصائية. بدأ مشروع R في عام 1993 كمشروع أطلقه اثنين من الإحصائيين في نيوزيلندا، وهما روس إلهاكا و روبرت جينتلمان، وكان هدفهما إنشاء منصة بحث جديدة في الحوسبة الإحصائية. ومنذ ذلك الحين نما هذا المشروع الريادي ليشمل أكثر من عشرين إحصائي وعالم كمبيوتر من جميع أنحاء العالم.

وبسبب كونها منصة مفتوحة المصدر، تم اعتماد R بسرعة كبيرة من قبل أقسام الإحصاء من جامعات في مختلف أنحاء العالم، وقد جذبتهم الطبيعة التوسعية لها كمنصة للبحوث الأكاديمية، كما أن مجانية المنصة لعبت دوراً هاماً كذلك. وخلال فترة ليست بطويلة بدأ الباحثون الإحصائيون وعلماء البيانات والتعلم الآلي بنشر الأبحاث العلمية المحتوية على التعليمات البرمجية لـ R لتنفيذ مهام العمل الجديدة، ضمن أغلب المجلات الأكاديمية. جعلت المنصة R هذه العملية سهلة للغاية: يمكن لأي شخص أن ينشر حزمة عمل ضمن المنصة في "شبكة الأرشيف الكامل لـR" المسماة اختصاراً بـCRAN، وتصبح متاحةً للجميع. حتى كتابة هذه السطور، ساهم آلاف مستخدمو منصة R بأكثر من 6100 حزمة عمل، موسعين قدرات المنصة إلى مجالات متنوعة كالاقتصاد وتحليل التجارب السريرية والعلوم الاجتماعية وبيانات الويب. ويمكن لأي شخص أن يقوم بالبحث عن التطبيقات في MRAN عن الموضوع الذي يريده.

تقوم العديد من الشركات والمنظمات الأخرى بالعمل على توسيع نطاق مشروع R، مع الحفاظ على الجوهر الأصلي عن طريق مؤسسة R غير الربحية (مقرها في فيينا، النمسا). وقد قامت TheBioConductor بإنشاء أكثر من 900 حزمة عمل إضافية، جاعلة هذا المشروع رائداً برمجياً في تحليل البيانات الجينية والوراثية. كما أن RStudio أنشأت بيئة تطوير تفاعلية رائعة بلغة R، معززةً إنتاجية المستخدمين في جميع أنحاء العالم. وقد قامت Revolution Analytics بدعم مشروع R بثورة مفتوحة جعلت تضمينه ضمن أي تطبيقات أخرى أمراً سهلاً.

بالإضافة إلى استخدام R على نطاق واسع ضمن القطاع الأكاديمي، لم يمض وقت طويل حتى بدأ استخدامها ضمن القطاع التجاري كذلك. ففي يناير 2009، كان مشروع R هو موضوع الصفحة الأولى لصحيفة نيوورك تايمز للإصدارالتقني، مولياً هذا المشروع الكثير من الاهتمام، كما أن شركة Revolution Analytics كانت فعالة جداً وقدمت الدعم الفني وخدمات ضخمة للبيانات الكبيرة.

تم تصنيف لغة R ضمن المرتبة التاسعة للغات الأكثر شعبية حسب معيار IEEE، كما أنها تصنف اللغة الأكثر شعبية في مجال علوم البينات. بالإضافة إلى استخدامها من قبل آلاف الشركات المهتمة بعلوم البيانات.

وهذه بعض الأمثلة القليلة عن استخدام R:

  • تستخدم جوجل مشروع R لحساب عائدات الاستثمار في الحملات الإعلانية

  • تستخدم فورد R لتحسين تصميم سياراتها

  • يستخدم تويتر R لمراقبة تجارب المستخدمين

  • تستخدم المنظمة الوطنية للطقس المشروع R من أجل التنبؤ بالفيضانات الشديدة

  • يستخدم معهد روكفلر الحكومي R من أجل تطوير نماذج لمحاكاة أموال صناديق التعاقد العامة

  • تستخدم مجموعة حقوق الإنسان لتحليل البيانات مشروع R من أجل قياس تأثيرات الحروب.

  • يُستخدم مشروع R كثيراً من قِبل صحيفة نيويورك تايمز من أجل إنشاء الرسوم البيانية والتطبيقات الصحفية ذات البيانات التفاعلية

وقد اعتمدت هذه الشركات على R لأنها منصة يفضل العلماء استخدام البيانات الموجودة فيها. والأكثر أهمية من ذلك، أنها تجعل مجال علوم البيانات ذو إنتاجية كبيرة، نظراً لأنه علم ذو موارد محدودة. على عكس أنظمة العمل ذات الملكيات المسجلة التي توفر أدوات عمل مقيدة كإجراءات الصندوق الأسود، إن R هي لغة برمجة متكاملة. فقد تم تضمين جميع توابع العمل اللازمة لتطبيقات علوم البيانات الأساسية ضمن اللغة الأساسية: توابع الوصول إلى البيانات وإعدادها، النمذجة الإحصائية والتنبؤ. كما أن تحليلات البيانات بشكل كامل يمكن أن يتمثل في كثير من الأحيان ببضعة أسطر من التعليمات البرمجية فقط. وبما أن علماء البيانات يستخدمون التعليمات البرمجية للوظائف ضمن R، وليس مجرد تقارير، فمن الأسهل لهم التعاون معاً لتكرار النتائج نفسها (خصوصاً ضمن بيئات الإنتاج الآلي)، وإعادة استخدام نفس التعليمات البرمجية للمشاريع الأخرى للحصول على المهام المطلوبة بشكل أسرع.

طبيعة منصة R مفتوحة المصدر، تعطي الشركات محفزاً كبيراً عندما يتعلق الأمر بالابتكارات. وهذا أمر مهم جداً في عالم مركزي البيانات كالذي نعيشه اليوم، حيث أن مجال صغير جداً من القدرة على التنبؤ باحتياجات العملاء أو بالعائدات المالية الأفضل يمكن أن يعني النجاح أو الفشل. وبما أن معظم الأبحاث المتطورة في مجال الإحصاء والتعلم الآلي قد تم العمل عليها ضمن R، فإن أحدث التقنيات عادةً ما تكون متوفرة أولاً كحزمة بيانات على منصة R، وذلك قبل سنوات من أن تظهر ضمن أنظمة الملكية الفردية.

لذلك، مع وصول علوم البيانات إلى أولويات الأعمال الأولى بحسب غارتنر، فإن منصة R ربما ستصل إلى أبعد من ذلك وستزداد شعبيتها أيضاً. وإذا كنت تبحث عن طريقة لتوسيع إمكانياتك المهنية، وتملك بعض مهارات تحليل البيانات، فأفضل ما يمكنك القيام به الآن هو التعرف على لغة R.

 

هذه المقالة مترجمة من الإنكليزية من تأليف ديفيد سمث الرئيس التنفيذي للمجتمع في شركة Revolution Analytics و مدير مجموعة الحلول مفتوحة المصدر.

0 التعليقات:

إرسال تعليق