Да, пожалуй, следовало разделить опрос на продакшен и прототипирование. Хотя, в наше время мощных, дешевых железок и дорогих программистов, прототипы всё чаще запускаются прямо в прод :)
А насколько статистически значимо это повышенное значение взаимной информации на пятый день? Дальше на графике видны аналогичные всплески, может это просто совпадение? Что если посчитать аналогичное распределение для других индексов или в разные интервалы времени?
Там ясно написано «В каждой ячейке матрицы указано какое количество раз слово встречается в соответствующем документе» Двоечку из заголовков новостей не выудишь, их авторы избегают повторения слов в названии.
PCA (метод главных компонент) и LSA чисто технически очень похожи, здесь не ставилась задача обзора всех возможных техник, но за идею спасибо, сравню и напишу результаты.
Если добавляется новая статья то можно не пересчитывать, но тогда вы не сможете выявить новые измерения (кластеры, группы).
Поэтому, на практике, имеет смысл регулярно пересчитывать, но не обязательно с каждой новой статьей.
В данной конкретной выборке. Например слово «Британская», возможно, в другой выборке оно было бы очень важно. Здесь же оно встречается только один раз и поэтому включать его в частотную матрицу нет смысла. Это просто оптимизация в целях экономии вычислительных ресурсов.
А тенденция уже очевидна
Поэтому, на практике, имеет смысл регулярно пересчитывать, но не обязательно с каждой новой статьей.