Science for Education Today, 2024, Т. 14, № 2, С. 125–151
УДК: 
37.012.4+159.9.072

Анализ эффективности алгоритмов кластеризации мультимодальных выборок с помощью компьютерного моделирования педагогического эксперимента

Абитов Р. Н. 1 (Казань, Россия), Сафин Р. С. 1 (Казань, Россия)
1 Казанский государственный архитектурно-строительный университет
Аннотация: 

Проблема и цель. Статья посвящена проблеме первичной обработки данных педагогических экспериментов, имеющих мультимодальный характер. Целью публикации является выявление наиболее эффективных и универсальных алгоритмов кластеризации данных педагогических экспериментов.
Методология. В исследовании использовался метод моделирования педагогического эксперимента. Представлен анализ 5 алгоритмов кластеризации. Оценка эффективности алгоритмов кластеризации проводилась по доле наблюдений с ошибками кластеризации на различных уровнях допустимости и коэффициенту подобия Жаккара. Для оценки влияния параметров моделирования педагогического эксперимента и показателей описательной статистики на эффективность алгоритмов кластеризации использовался регрессионный анализ.
Результаты. Дана оценка эффективности различных алгоритмов кластеризации данных, а также проведен корреляционный и регрессионный анализ факторов, влияющих на показатели эффективности кластеризации.
Наиболее эффективными алгоритмами кластеризации мультимодальных выборок являются алгоритм К-средних и агломеративный иерархический алгоритм.
Заключение. Результаты, полученные в данной публикации, могут использоваться для статистического анализа данных педагогических, психологических, социологических, биологических и медицинских исследований.

Ключевые слова: 

моделирование педагогического эксперимента; алгоритмы кластеризации данных; мультимодальные выборки; педагогический анализ данных.

Библиографическая ссылка:
Абитов Р. Н., Сафин Р. С. Анализ эффективности алгоритмов кластеризации мультимодальных выборок с помощью компьютерного моделирования педагогического эксперимента // Science for Education Today. – 2024. – № 2. – С. 125–151. DOI: http://dx.doi.org/10.15293/2658-6762.2402.06
Список литературы: 
  1. Абитов Р. Н. Пути повышения валидности и повторяемости экспериментальных педагогических исследований // Казанский педагогический журнал. – 2022. – № 4. – С. 79–90. DOI: https://10.51379/kpj.2022.154.4.009  URL: https://elibrary.ru/item.asp?id=49482910   
  2. Ершов К. С., Романова Т. Н. Анализ и классификация алгоритмов кластеризации // Новые информационные технологии в автоматизированных системах. – 2016. – № 19. – С. 274–279. URL: https://elibrary.ru/item.asp?id=25864070
  3. Подвальный С. Л., Плотников А. В., Белянин А. М. Сравнение алгоритмов кластерного анализа на случайном наборе данных // Вестник Воронежского государственного технического университета. – 2012. – Т. 8, № 5. – С. 4–6. URL: https://elibrary.ru/item.asp?id=17743528
  4. Сивоголовко Е. В. Методы оценки качества чёткой кластеризации // Компьютерные инструменты в образовании. – 2011. – № 4. – С. 14–31. URL: https://elibrary.ru/item.asp?id=21786023
  5. Xiaowei Xu, Ester M., Kriegel H.-P., Sander J. A distribution-based clustering algorithm for mining in large spatial databases // Proceedings 14th International Conference on Data Engineering. DOI: https://doi.org/10.1109/icde.1998.655795
  6. Azzalini A., Valle A. D. The multivariate skew-normal distribution // Biometrika. – 1996. – Vol. 83 (4). – P. 715–726. DOI: https://doi.org/10.1093/biomet/83.4.715    
  7. Banfield J. D., Raftery A. E. Model-based Gaussian and non-Gaussian clustering // Biometrics. – 1993. – Vol. 49 (3). – P. 803–821. DOI: https://doi.org/10.2307/2532201
  8. Cheng M.-Y., Hall P. Calibrating the excess mass and dip tests of modality // Journal of the Royal Statistical Society: Series B: Statistical Methodology. – 1998. – Vol. 60 (3). – P. 579–589. DOI: https://doi.org/10.1111/1467-9868.00141
  9. Rodriguez M. Z., Comin C. H., Casanova D., Bruno O. M., Amancio D. R., Costa L. da F., Rodrigues F. A. Clustering algorithms: A comparative approach // PloS ONE. – 2019. – Vol. 14 (1). – P. e021023. DOI: https://doi.org/10.1371/journal.pone.0210236

10. Reynolds A. P., Richards G., de la Iglesia B., Rayward-Smith V. J. Clustering rules: a comparison of partitioning and hierarchical clustering algorithms // Journal of Mathematical Modelling and Algorithms. – 2006. – Vol. 5 (4). – P. 475–504. DOI: https://doi.org/10.1007/s10852-005-9022-1

11. Kinnunen T., Sidoroff I., Tuononen M., Fränti P. Comparison of clustering methods: A case study of text-independent speaker modeling // Pattern Recognition Letters. – 2011. – Vol. 32 (13). – P. 1604–1617. DOI: https://doi.org/10.1016/j.patrec.2011.06.023

12. Ameijeiras-Alonso J., Crujeiras R. M., Rodríguez-Casal A. Mode testing, critical bandwidth and excess mass // TEST. – 2018. – Vol. 28 (3). – P. 900–919. DOI: https://doi.org/10.1007/s11749-018-0611-5

13. Fisher N. I., Marron J. S. Mode testing via the excess mass estimate Fisher N.I. Mode testing via the excess mass estimate // Biometrika. – 2001. – Vol. 88 (2). – P. 499–517. DOI: https://doi.org/10.1093/biomet/88.2.499

14. Fowlkes E. B., Mallows C. L. A method for comparing two hierarchical clusterings: Rejoinder // Journal of the American statistical association. – 1983. – Vol. 78 (383). – P. 584. DOI: https://doi.org/10.2307/2288123

15. Guha S., Rastogi R., Shim K. Cure: an efficient clustering algorithm for large databases. Information Systems. – 2001. – Vol. 26 (1). – P. 35–58. DOI: https://doi.org/10.1016/s0306-4379(01)00008-4 

16. Guha S., Rastogi R., Shim K. ROCK: a robust clustering algorithm for categorical attributes // Proceedings 15th International Conference on Data Engineering. 1999. (Cat. No.99CB36337). DOI: https://doi.org/10.1109/icde.1999.754967

17. Hartigan J. A., Hartigan P. M. The dip test of unimodality // The annals of Statistics. – 1985. – Vol. 13 (1). – P. 70–84. DOI: https://doi.org/10.1214/aos/1176346577

18. Jung Y. G., Kang M. S., Heo J. Clustering performance comparison using K-means and expectation maximization algorithms // Biotechnology & Biotechnological Equipment. – 2014. – Vol.  28 (sup1). – P. S44–S48. DOI: https://doi.org/10.1080/13102818.2014.949045

19. Karypis G., Eui-Hong Han, Kumar V. Chameleon: Hierarchical clustering using dynamic modeling // Computer. – 1999. – Vol. 32 (8). – P. 68–75. DOI: https://doi.org/10.1109/2.781637

20. Kruskal W. H., Wallis W. A. Errata: Use of Ranks in One-Criterion Variance Analysis // Journal of the American Statistical Association. – 1953. – Vol. 48 (264). – P. 907. DOI: https://doi.org/10.2307/2281082

21. Ankerst M., Breunig M. M., Kriegel H.-P., Sander J.  OPTICS: Ordering points to identify the clustering structure // ACM Sigmod record. – 1999. – Vol.  28 (2). – P. 49–60. DOI: https://doi.org/10.1145/304181.304187

22. Rand W. M. Objective criteria for the evaluation of clustering methods // Journal of the American Statistical association. – 1971. – Vol. 66 (336). – P. 846–850. DOI: https://doi.org/10.1080/01621459.1971.10482356

23. Sculley D. Web-scale k-means clustering // Proceedings of the 19th international conference on World wide web. – 2010. – P. 1177–1178. DOI: https://doi.org/10.1145/1772690.1772862

24. Shi J., Malik J. Normalized cuts and image segmentation // IEEE Transactions on pattern analysis and machine intelligence. – 2000. – Т. 22. – № 8. – С. 888-905. DOI: https://doi.org/10.1109/cvpr.1997.609407

25. Silverman B. W. Using kernel density estimates to investigate multimodality // Journal of the Royal Statistical Society: Series B (Methodological). – 1981. – Vol. 43 (1). – P. 97–99. DOI: https://doi.org/10.1111/j.2517-6161.1981.tb01155.x

26. Ward J. H. Hierarchical grouping to optimize an objective function // Journal of the American statistical association. – 1963. – Vol. 58 (301). – P. 236–244. DOI: https://doi.org/10.1080/01621459.1963.10500845

27. Wilkin G. A., Huang X. K-means clustering algorithms: implementation and comparison // Second International Multi-Symposiums on Computer and Computational Sciences (IMSCCS 2007). – 2007. – P. 133–136. DOI: https://doi.org/10.1109/imsccs.2007.51

28. Xu D., Tian Y. A comprehensive survey of clustering algorithms // Annals of Data Science. – 2015. – Vol. 2 (2). – P. 165–193. DOI: https://doi.org/10.1007/s40745-015-0040-1

29. Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // ACM sigmod record. – 1996. – Vol. 25 (2). – P. 103–114. DOI: https://doi.org/10.1145/235968.233324

Дата публикации 30.04.2024