معالجة الضّجيج في مقياس البيانات الضّخمة عن طريق تحسين خوارزميّة أقرب جار
الملخص
مع التّطّوّر التّكنولوجي الكبير الّذي نعيشه الآن ومع التّزايد الكبير لمستخدميّ الإنترنت ومستخدميّ الهواتف المحمولة هناك نموّ هائل للبيانات الضّخمة الّتي تتولّد كلّ ثانية من ملايين الرّسائل الّتي ترسل وتستقبل عبر تطبيقات وسائل التّواصل الاجتماعي وملايين الصّور الملتقطة وساعات من مقاطع الفيديو الّتي يتمّ تحميلها كل دقيقة.
البيانات الضّخمة لا تعني فقط أنّ مجموعات البيانات كبيرة جداً، بل هي مصطلح شامل للبيانات الكبيرة جداً في الحجم والمعقّدة بطبيعتها.
نظراً لأهميّة البيانات الضّخمة ودورها الكبير في جميع مجالات الحياة بما في ذلك الشّركات الّتي تستخدمها في أنظمتها لتحسين العمليات وتقديم الخدمات بشكل أفضل وإنشاء حملات تسويقيّة مخصّصة واتخاذ الإجراءات الّتي تمكّنها في النّهاية من زيادة الإيرادات والأرباح، فالشّركات الّتي تستخدمها بشكل فعّال تمتلك ميزة تنافسيّة محتملة على تلك الّتي لا تستخدمها لأنّها قادرة على اتّخاذ قرارات عمل أسرع وأكثر فعاليّة. فقد أصبحت دراستها ودراسة الخوارزميات الّتي تلائمها وطرق استخدمها وتحليلها الهمّ الأكبر لعلماء البيانات لكنّها قد تعاني من بعض المشاكل من بينها الضّجيج الّذي يؤدي إلى تغيّير جزئي أو كلّيّ بالمعلومات.
قمنا في هذ البحث بمعالجة الضّجيج في البيانات الضّخمة عن طريق تحسين خوارزميّة أقرب جار حيث حاولنا التّنويع فاستخدمنا مجموعتي بيانات مختلفتيّ الحجم ومختلفتين في عدد الأسطر والأعمدة وكذلك مختلفتين في نوع الضّجيج، واعتمدنا على أكثر من نمط للبيانات بحيث تتلاءم مع معظم قواعد البيانات للشّركات. تمّ الكشف عن القيم المتطرفة ومن ثمّ استخدام أكثر من تقنيّة لاختيار الأنسب من بينها الّتي تعطينا الدّقّة الأفضل وزمن التّنفيذ الأقلّ.