تقنية جديدة لإلغاء البيانات المكررة على مستوى الملف في التخزين السحابي
الملخص
تستقبل الأنظمة السحابية بيانات متنوعة، وبأحجام ضخمة، وبتسارع كبير. بعض من هذه الملفات يكون مطابقاً لملفات مخزنة مسبقاً في السحابة، ما يؤدي إلى استنزاف مساحة التخزين. الأمر الذي يؤثر على أداء النظام ككل. لذلك، كان لا بد من تطوير تقنيات تهدف إلى كشف الملفات المكررة لتقليل استهلاك مساحة التخزين. بشكل عام، تعتمد هذه التقنيات على حساب قيمة التجزئة للملفات الواردة إلى السحابة، ومن ثم تتم مقارنة هذه القيمة مع مفاتيح التجزئة المخزنة ضمن جداول تجزئة في التخزين السحابي. لكن يجب الأخذ بالحسبان مشكلة التصادم، والتي ترتبط بطول مفتاح التجزئة، فكلما زاد طول المفتاح قلت نسبة التصادم. في هذا البحث، سنقدم تقنية لإلغاء الملفات المكررة. هذه التقنية تستخدم خوارزمية FNV (Fowler-Noll-Vo) لإنشاء مفتاح تجزئة بطول 1024 بتاً، وذلك من أجل تقليل نسبة التصادم. لزيادة سرعة البحث عن مفتاح التجزئة، قمنا بإنشاء جداول عدة بفهارس متعددة. إذ أنشأنا أربعة جداول لكل نوع من الملفات (الصورة والفيديو والصوت والنص)، وكل جدول يتضمن عشرة فهارس. تعتمد هذه الفهارس على نظام التمثيل العشري، بحيث تأخذ قيماً من 0 حتى 9. يتم توجيه مفتاح الاختزال للملف الوارد إلى الفهرس المخصص ضمن الجدول الموافق لنوعه، وذلك بناءً على البت الأكثر أهمية في مفتاح التجزئة.