إن تحديد عدد المجموعات في مجموعة بيانات، وهي الكمية التي غالبًا ما يتم تسميتها بـ ن أو k كما في الخوارزمية التصنيفية، هي مشكلة متكررة في التحليل العنقودي، وهي قضية منفصلة عن عملية حل مشكلة التجميع الفعلية.
بالنسبة لفئة معينة من خوارزميات التجميع (على وجه الخصوص خوارزميات التجميع بالمتوسط وبالمنتصف وخوارزمية التوقع والتعظيم)، هناك معلمة يشار إليها عادةً باسم k والتي تحدد عدد المجموعات المراد اكتشافها. لا تتطلب الخوارزميات الأخرى مثل خوارزمية DBSCAN وOPTICS تحديد هذه المعلمة؛ حيث يتجنب التجميع الهرمي المشكلة تمامًا.
غالبًا ما يكون الاختيار الصحيح لـ ن غامضًا، حيث تعتمد التفسيرات على شكل ومقياس توزيع النقاط في مجموعة البيانات ودقة التجميع المطلوبة للمستخدم. بالإضافة إلى ذلك، فإن زيادة ن بدون حد سيقلل دائمًا من مقدار الخطأ في التجميع الناتج، إلى الحالة القصوى المتمثلة في الخطأ صفر إذا تم اعتبار كل نقطة بيانات عبارة عن مجموعة خاصة بها (أي عندما يكون ن مساويًا لعدد نقاط البيانات). وبالتالي، بديهيًا، فإن الاختيار الأمثل لـ ن سيحقق التوازن بين الحد الأقصى لضغط البيانات باستخدام مجموعة واحدة، والحد الأقصى للدقة عن طريق تعيين كل نقطة بيانات إلى مجموعتها الخاصة. إذا لم تكن القيمة المناسبة لـ ن واضحة من المعرفة المسبقة لخصائص مجموعة البيانات، فيجب اختيارها بطريقة ما. هناك عدة فئات من الأساليب لاتخاذ هذا القرار.