Компьютерный анализ текста
Введение
Об этом курсе
Этот сайт содержит материалы к курсу “Компьютерный анализ текста в R” для магистерской программы НИУ ВШЭ “Цифровые методы в гуманитарных науках”. Предыдущую версию курса можно найти здесь.
И тексты, и инструменты для работы с ними подобраны таким образом, чтобы помочь студентам гуманитарных специальностей (филологам, философам, историкам и др.) как можно быстрее, но с полным пониманием дела перейти к применению количественных методов в собственной работе.
Чтобы лучше понимать, какие из этих методов более всего востребованы в научной работе, преподаватели магистратуры “Цифровые методы в гуманитарных науках” – Б.В. Орехов, А.А. Осмоловская и О.В. Алиева – организовали в 2024 г. серию встреч с ведущими представителями отрасли. Видео этих встреч и литературу к семинарам можно найти на сайте http://criticaldh.ru/.
Там мы собрали именно теоретические обсуждения и литературу к ним, а в этом курсе предлагаем приступить к практике DH (на языке R). Оба этих аспекта, в нашем представлении и в программе магистратуры тесно связаны: одного программирования не хватит, чтобы стать “цифровым гуманистом”, а теории недостаточно, чтобы судить об успешности тех или иных цифровых проектов. Поэтому этот курс старается стоять на двух ногах и соединять кодинг с теоретической рефлексией. Это почти невыполнимая задача но когда нам это мешало.
Ресурсы
И в теоретическом, и в практическом плане курс опирается на огромную работу, уже проделанную преподавателями магистратуры ЦМГН. Важнейшие наши достижения собрал Б.В. Орехов: https://github.com/nevmenandr/awesome-dh-hse. Здесь вы найдете ссылки на видео, научно-популярные и научные публикации и датасеты.
Если вдруг вам не хватит практических заданий по R, то в качестве дополнения к оффлайн-курсу можно рекомендовать онлайн-курс Георгия Мороза “Введение в анализ данных на R для гуманитарных и социальных наук”. К этому курсу прилагается онлайн-ноутбук (https://agricolamz.github.io/daR4hs/) с комментариями и всем кодом, и он полностью открыт. Надо иметь в виду, однако, что онлайн-курс рассчитан всего на 9 недель, в то время как наш – на два семестра, так что его можно использовать лишь как вспомогательный ресурс, но не замену.
Программа
Курс 2024/2025 г. включает в себя три основных блока и 24 темы. Программа носит предварительный характер и может быть чуть изменена.
Модуль 1. Основы работы в R
- Начало работы.
- Таблицы. Опрятные данные.
- Визуализации.
- Циклы, условия, функции.
- Импорт: JSON & XML.
- Публикационная система Quarto.
- Регулярные выражения.
- Консолидация.
Модуль 2. Текст-майнинг
- Веб-скрапинг.
- Токенизация, лемматизация, POS-тэггинг и синтаксический анализ.
- Распределения слов и анализ частотностей.
- Эмоциональная тональность.
- Латентно-семантический анализ.
- Векторные представления слов на основе PMI. Word2Vec.
- Тематическое моделирование c LDA.
- Консолидация.
Модуль 3. Деревья, сети, карты
- Кластеризация и метод главных компонент.
- Стилометрический анализ с пакетом
stylo
. - Консенсусные деревья и сети.
- Сетевые данные в
igraph
. - Графический дизайн сетей в
ggraph
. - Анализ сетей и обнаружение сообществ.
- Пространственные данные в R.
- Консолидация.
Модуль 4. Машинное обучение
- Регрессионный анализ.
- Регрессионные модели с
tidymodels
. - Алгоритмы для бинарной классификации.
- Подбор гиперпараметров модели (tuning).
- Многоклассовая классификация.
- Кодирование категориальных переменных.
- Нейросетевые модели.
- Консолидация.
Дополнительные материалы
Этот курс опирается на четыре книги, к которым можно обращаться за дополнительной информацией. Все они находятся в открытом доступе.
Эти книги объединяет общий подход, основанный на идеологии tidy data, и использовать описанные там инструменты можно, не опасаясь проблем совместимости.
Оценивание
Домашние задания выполняются в GitHub Classroom. Еженедельно выполняются небольшие задания, которые оцениваются по бинарной шкале (1/0), раз в месяц – консолидирующие задания на весь пройденный материал (оценка 0-10). Все необходимые ссылки вы найдете в чате курса в Telegram.
Благодарности
За помощь в разработке курса и подготовке датасетов к нему автор благодарит Георгия Мороза и Бориса Орехова. Даниилу Скоринкину я признательная за помощь в работе над главами, посвященными сетевому анализу. Идеей количественного сравнения британских эмпириков в десятой главе я обязана своей коллеге по Школе философии и культурологии НИУ ВШЭ Дарье Дроздовой.
Обратная связь
Если вы заметили ошибку или опечатку, можно сообщить по почте oalieva@hse.ru или оставить issue в репозитории курса на GitHub.