27 мая 2013 в 15:38

Educational Data Mining: введение из песочницы

Nelson Mandela said: “Education is the most powerful weapon
which you can use to change the world.”

Волею судеб нам посчастливилось стать одними из участников курса по Data Mining (программа GameChangers, Санкт-Петербург). Цель курса – изучение методов и технологий обработки данных в различных областях IT-индустрии. Лекции у нас читают эксперты из крупнейших IT компаний, а студенты работают над реальными задачами и проектами.
И так получилось, что в рамках данного курса наша рабочая группа занимается разработкой проекта в области Educational Data Mining.

В России пока единицы знают о существовании этого направления, поэтому для начала в общих чертах расскажем про EDM: общие цели, кто может использовать и зачем.

Educational Data Mining



Согласно статье «Educational Data Mining: A Review of the State of the Art», EDM разрабатывает методы исследования данных, использующихся в образовательных целях, для принятия решений в сфере образования.
//например, чтобы понять студентов и те “установки”, по которым они учатся.
Понятно, что и DM, и EDM занимаются нахождением скрытых закономерностей в данных. Но что же отличает EDM от других подобластей Data Mining?

Ну, во-первых, это цели. EDM старается всеми силами улучшить образовательный процесс, направить студентов в нужное русло, дать рекомендации преподавателям и более того вникнуть в саму суть феномена образования — понять каким же образом мы всё-таки усваиваем информацию, приобретаем навыки и умения.

Во-вторых, данные. Те, что используются EDM, обладают довольно сложной внутренней семантикой. Тут и несколько значимых уровней иерархии и связи между разными типами данных.
В онлайн системах для EDM чаще всего используют лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое). Стоит заметить, что EDM может применяться не только в онлайн-системах, но и в традиционных школах и университетах. Другое дело, что в данном случае мы обладаем очень разобщенной и недостаточной информацией. В то время как в он-лайн курсе все уже в единном электронном формате и масштаб аудитории на таких ресурсах как Coursera во много раз превышает стандартный класс. Именно для данных таких размерностей и имеет смысл применять распространённые в DM алгоритмы машинного обучения.

А в-третьих, это сами методы. Помимо стандартных методов Data Mining: кластеризации, классификации, регрессии, корреляции, визуализации, статистики, поиска правил связей (англ. association rule mining)..., — в EDM используются и некоторые специфичные, например, из области психометрики. Согласно Википедии, психометрия изучает теорию и методику психологических измерений и является частью статистики. В EDM методы из этой дисциплины помогают разбивать студентов на группы по восприятию информации (см. типология MBTI), что в свою очередь позволяет адаптировать образовательный процесс под студента: подбирать соответствующий тип контента и определённым образом его организовывать.
Предпочтения Пояснение (на чём акценты)
Экстраверсия — Интроверсия Ориентация сознания
Ощущение — Интуиция Способ ориентировки в ситуации
Мышление — Чувство Основа принятия решений
Суждение — Восприятие Способ подготовки решений
см. [Типология Майерс-Бриггс]

А теперь, пожалуй, пару слов о том, для кого и зачем используется EDM.

“Целевая аудитория”


Выделяют несколько основных групп пользователей Educational Data Mining, рассмотрим их на примере всем известного портала Coursera.



Итак, у нас есть студент, который хочет понять как программировать компиляторы.
Студент заходит на Coursera и регистрируется на курс Compilers от преподавателя Стенфордского университета Алекса Айкена.
Давайте посмотрим, что EDM может ему предложить, основываясь на информации об обучении и его личных данных, которые он заполняет в профиле или из ответов на анкеты курсов.



1. Студенты/ученики/обучающиеся


Для того, чтобы студент успешно закончил курс по компиляторам и вернулся за дальнейшим обучением, платформа Coursera может сделать следующее:

Когда студент хочет получить знания в интернете – он использует образовательную онлайн систему. Она взаимодействует со студентом, обеспечивая индивидуализированный контент и адаптированную помощь.


Система собирает детализированную информацию о том, какой контент студент открывает чаще всего (задание, видео, текст), а также скорость, длительность и частоту его просмотра. После сохраняет в базу данных.


Полученная информация обрабатывается и основываясь на полученных моделях обучения, система пытается наилучшим образом адаптировать курс под студента.



Также система может дать рекомендации других курсов. Существует огромное количество рекомендационных алгоритмов, которые можно использовать. Очень хорошо про алгоритмы рекомендательных систем написано в хабраблоге snikolenko.



Если сиcтема видит, что студент очень быстро справляется с квизами и домашними заданиями, быстро проматывает учебный материал, то она может предложить ему “обходные” (сокращённые) пути прохождения курса — более сложные задания, прохождение на более сложную ступень при сдаче экзамена и пр.



В ином случае она поможет сгенерировать адаптированную подсказку. Если у студента возникли проблемы с какой-то частью курса ( это можно понять на основе ошибок в квизах, домашних заданиях и вопросам на форуме), система может дать рекомендацию по дополнительному материалу или перенаправить его на соответствующую главу.




2. Преподаватели/инструкторы


В тоже самое время преподавателям, например Alex Aiken, также необходима информация и инструменты для того, чтобы улучшать курс. Система может дать преподавателю следующую информацию:

При создании курса, основываясь на анализе уже имеющихся курсов, преподаватель сможет заранее предсказывать поведение студента и адаптировать материал под его нужды.




Во время курса очень важно получать фитбек (ответную реакцию) о процессе обучения. Например, это может быть интегральная оценка или динамика работы студентов по курсу (выполненных квизов, домашних заданий и пр.)


Также у преподавателя есть возможность классифицировать обучающихся по группам, например, по успеваемости, активности, полу, возрасту, бекграунду и пр.




Система предоставляет инструменты для частоты и распределения ошибок, которые совершают студенты. С помощью дополнительных параметров, например таких как
просмотренные темы, предыдущие оценки и пр, возможно понять причины ошибок.




3. Разработчики/исследователи


Andrew Ng и Daphne Koller, как создатели платформы, заинтересованы в том, чтобы курсы пользовались спросом, а студенты приобретали новые знания, поэтому совместно с группой исследователей (с направления computer science) они занимаются разработкой инструментов EDM, с помощью которых они пытаются:



Улучшить обучение студентов. Например, по статистике выбранных курсов могут быть даны рекомендации студентам по дальнейшему обучению, составлено расписание + всё то, что описано выше.


Оценить структуру контента курса и его эффективность в процессе обучения. Перед глазами разработчиков полная картина того, что происходит на ресурсе. В их интересах оставлять и улучшать успешные курсы и подбирать лучший способ подачи информации.



Автоматически создавать модели студента и наставника. Основываясь на данных о преподавателях и студентах, здесь как раз помогут психометрики, можно подбирать наилучшие комбинации студент-наставник, что должно повысить усваиваемость материала.



4. Организации: университеты/компании/… | 5. Администраторы образовательного процесса/системные администраторы


Высшим учебным заведениям, таким как Stanford, внедрение EDM поможет:

Предложить группам студентов определенные курсы, которые могут оказаться полезными, тем самым сделав более рентабельным содержание классов.




Повысить качество подготовки студентов. С помощью EDM администратор получает новые инструменты для оценки преподавателей, учебных планов и понять, как эффективнее использовать ограниченные ресурсы (преподавателей, разработчиков и материалы).



Алгоритмы EDM подскажут системным администраторам, когда стоит ожидать пиковые нагрузки на сеть, и как оптимизировать работу web-сервисов, адаптировав их под пользователей.




В заключение об использовании EDM.


Основные направления, по которым ведутся разработки, можно посмотреть на диаграмме. Обратим ваше внимание на то, что данные собраны по 300 работам до 2009 года.



Для более подробного ознакомления с темой рекомендую:
  1. Статьи:
  2. Coursera: coursera.org
  3. Книга раз: C.Romero, S.Ventura et al.Handbook of Educational Data Mining. 2010 (amazon)
  4. Книга два: C. Romero&S. Ventura. Data Mining in E-learning. 2006 (amazon)
  5. TED Online Education: Daphne Koller: What we're learning from online education

Если тема интересна, то этот пост может быть первым из цикла постов по EDM. Дайте знать.
@edmteam
карма
10,0
рейтинг 0,0
Похожие публикации
Самое читаемое Разработка

Комментарии (13)

  • +1
    Здорово… очень большой контраст со «стандартами» Минобрнауки.

    С первого взгляда выглядит суховато и слишком алгоритмично.
    Но имхо так гораздо лучше, чем платные зачеты!

    Т.к. немного в теме психологических моделей, хочу напомнить про «аудиалов — визуалов — кинестетиков»
    (если у кого-то сильный перевес в одну из сторон, это обязательно надо учитывать).
    • +2
      В тему псих. моделей: ученые из Марокко разделили студентов вообще на 16 психотипов. Сравнение тестовой и контрольной выборки показало, что оценки на 15% выше, но исследовали только на одном классе из 24 человек. airccse.org/journal/jcsit/0611csit14.pdf
      Мы сейчас будем пробовать использовать хотя бы стандартные психологические модели, посмотрим, что из этого выйдет…
      • 0
        Хотя и кто-то и считает психологию лженаукой… Думаю, «истина где-то посередине» )
        Конечно, закономерности психики — реальный факт, который можно и нужно использовать.

        Но вот бесконечное дробление может привести в итоге к 7 млрд.-мерной модели.
        А человек одновременно может оперировать 6-8 понятиями. Наверное, и для глобальных моделей эта цифра наиболее приемлема. Хороший пример — HEXACO (Немножко личного интерактива )
      • +2
        24 человека разделить на 16 типов…
        • +2
          «Тестовая выборка сегодня не пришёл»
    • 0
      А причем тут стандарты? ФГОСы описывают требования к целевым компетенциям. А вот для их достижения вполне можно использовать и EDM.
      Вопрос к автору кстати — предусматривает ли EDM конкретные модели и алгоритмы? Потому что без конкретных моделей и алгоритмов, просто как подход верхнего уровня — ничего особо нового тут нет…
      • 0
        Из алгоритмов: кластеризация, классификация, регрессионные модели, деревья, нейронные сети, алгоритмы бустинга. ассоциативные правила и пр. Также алгоритмы из SNA ( анализа социальных сетей), opinion и text mining.
  • +2
    Если тема интересна, то этот пост может быть первым из цикла постов по EDM. Дайте знать.


    Было бы очень интересно узнать чего уже удалось добиться.

    В EDM методы из [психометрии] помогают разбивать студентов на группы по восприятию информации

    Существуют люди, которые обзывают психологию лженаукой. Их доводы уже разбиты? На сколько процентов повышается эффективность обучения, адаптированного под тип личности по сравнению с "«дефолтными настройками?

    Полученная информация обрабатывается и основываясь на полученных моделях обучения, система пытается наилучшим образом адаптировать курс под студента.

    Это уже возможно? Получается, что реально авторам нужно увеличить размеры курсов реально раз в пять для разных типов личности?

    Предложить группам студентов определенные курсы, которые могут оказаться полезными, тем самым сделав более рентабельным содержание классов.

    Это уже получается? Система может предложить что-то менее банальное, чем „Вы прослушали курс Алгоритмы-1, рекомендуем вам курс Алгоритмы-2. И еще несколько курсов с тегом Computer Science“.

    В целом, уже какие-нибудь небанальные результаты получили? Кому нужно больше потрудиться, чтобы добрые и умные машины стали давать толковые и грамотные рекомендации: психологам, программистам, математикам?

    Ну, то есть, да, повторюсь, было бы очень интересно увидеть цикл статей.
    • 0
      Отвечу по порядку:

      Сейчас анализируем логи Rosalind, для их новой платформы пишем прототип.
      Попробуем договориться о публикации результатов.

      Мы пока не разбили эти доводы. Как писали выше, сейчас будем пытаться внедрять модели и проверять на своем опыте :) Те же ученые из Марокко пытаются опровергнуть, но нужно теснить на большем количестве студентов, а не 24. Думаю скоро мы проверим это высказывание)

      Да, это уже возможно. Необязательно создавать в 5 раз больше контента. На coursera есть — задачи, квизы, презентации, видео, можно их миксовать в зависимости от выделенного типа. Например, сначала выдавать пользователю задачи или презентации, или видео.

      Алгоритмов рекомендаций даже в образовании используется очень много, но, к сожалению, не у нас( В основе их не только прослушенные курсы, но и просмотренные, пройденные, не понравившиеся, результаты по квизам, информация из профиля, сообщения на форумах, и пр, пр.
      Трудится надо всем, психологи, например, с помощью геймификсации могут решить проблему холодного старта.

      Если интересно, то будем писать =)
      • 0
        Очень интересно, конечно пишите.
      • 0
        Да, интересно!
  • 0
    Правильно ли будет понимать что EDM это статистика после ребрендинга?
    • 0
      Эм, тогда весь data mining- это статистика после ребрендинга, а machine learning — ребрендинг Теста Тьюринга =)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.