Home > Posts > BigData > ما هي مجموعات البيانات Data set

ما هي مجموعات البيانات Data set

مجموعات البيانات Data Set هي مجموعات من البيانات تتطابق بشكل عام مع محتويات جدول قاعدة بيانات مفرد ، أو مصفوفة بيانات إحصائية واحدة ، حيث يمثل كل عمود في الجدول متغيرًا معينًا، ويقابل كل صف عضوًا معينًا من مجموعات البيانات المعنية، وتسرد القيم لكل من المتغيرات، مثل ارتفاع ووزن كائن ، لكل عضو في مجموعة البيانات، تعرف كل قيمة في مجموعة البيانات باسم المسند.

خصائص مجموعات البيانات  Data Set

هي عبارة عن  مجموعات من البيانات التي يتم تجميعها لغرض معين، بواسطة الكثير من الطرق مثل عمليات المسح لمرة واحدة، والمقابلات، والملاحظات، وتحتوي الـ Data Set عادة على نوع معين من البيانات مثل الأسماء والمرتبات وبيانات المبيعات التي تكون جميعها رقمية وذات تنسيق ثابت، في المقابل، قد تحتوي الملفات على مجموعة واسعة من أنواع البيانات ، مثل النصوص والرسومات والبيانات الصوتية وبيانات الفيديو التي ستكون بتنسيق متغير.

مجموعات البيانات ليست مجرد ملفات أو حقائق للبيانات الفردية، ولكنها تتكون أيضًا من بعض الوثائق التي تدعم استخدامها أو تحليلها.

يستخدم مصطلح هذا للإشارة إلى البيانات في مجموعة من الجداول وثيقة الصلة، والتي تتوافق مع تجربة أو حدث معين، والأسماء الأقل استخدامًا لهذا النوع من مجموعات البيانات هي مجموعة البيانات ومخزون البيانات.

يمكن تنظيم مجموعات البيانات Data Set في مجموعة بيانات مقسمة قد تحتوي على أعضاء متعددين يحتوي كل منهم على مجموعة بيانات فرعية منفصلة، و هذا النمط  يشبه تنظيم الملفات في الدلائل أو المجلدات، وغالبا ما تستخدم PDSs للبرامج التنفيذية ومكتبات البرنامج المصدر، والجدير بالذكر أن نظام PDS يتشابه مع ملف zip في نظام الملفات ، لكن البيانات غير مضغوطة.

قد تتباين القيم الموجودة بها، مثلاً قد تكون الأرقام أرقاماً صحيحة أو أرقاماً حقيقية،  فعلى سبيل المثال يكون تمثيل طول الشخص عادةً بالسنتمترات.

مجموعات البيانات هي وحدة قياس المعلومات الصادرة في مستودع بيانات مفتوح للجمهور، ومثال على ذلك تجمع بوابة البيانات المفتوحة الأوروبية أكثر من نصف مليون مجموعة بيانات.

تأتي عادة من الملاحظات الفعلية التي تم الحصول عليها عن طريق أخذ عينات من مجموعة إحصائية، وكل صف يتوافق مع الملاحظات على عنصر واحد من تلك المجموعة، و يتم أيضًا إنشاء مجموعات البيانات بواسطة الخوارزميات لغرض اختبار أنواع معينة من البرامج.

أمثلة على مجموعات البيانات الكلاسيكية

مجموعة بيانات زهرة إيريس المتعددة المتغيرات التي قدمها رونالد فيشر عام 1936م.

قاعدة بيانات MNIST  وهي عبارة عن صور للأرقام المكتوبة بخط اليد التي يشيع استخدامها لاختبار تصنيف وتجميع خوارزميات معالجة الصور

تحليل البيانات الفئوية وهي  مجموعات البيانات المستخدمة في كتاب مقدمة في تحليل البيانات الفئوية.

القيم المتطرفة –  وهي مجموعة البيانات المستخدمة في كتاب مقدمة لنمذجة الإحصائية القيم القصوى هي لقطة من البيانات الذي تم توفيره على الإنترنت من قبل ستيوارت كولز، مؤلف الكتاب.

مجموعة Anscombe’s الرباعية وهي مجموعة بيانات صغيرة توضح أهمية رسم بياني للبيانات لتجنب المغالطات الإحصائية.

error: Content is protected !!