В данной работе рассматривается проблема кластеризации категориальных данных, особенно для транзакционных данных, характеризующихся высокой размерностью и большим объемом. Исходя из эвристического метода увеличения отношения высоты к ширине гистограммы кластера, мы разрабатываем новый алгоритм - CLOPE, который является очень быстрым и масштабируемым, будучи достаточно эффективным. Мы демонстрируем производительность нашего алгоритма на двух реальных наборах данных и сравниваем CLOPE с современными алгоритмами.
Более подробно можно изучить информацию в ноутбуке