Месяц назад мне понадобилось протестировать методы машинного обучения для анализа текстов. В качестве тестовых примеров я использовал публикации с главной страницы АфтерШока. Возможно, результаты исследования будут интересны пользователям этого ресурса.
Сбор и подготовка данных
С Главной страницы сайта (как понимаю, из разделов «Новости», «Аналитика» и «Теория») были скачены все публикации с 12 декабря 2011 г. по 15 февраля 2018 года – всего получилось 36,4 тыс. статей.