Компьютерный анализ текста

Ольга Алиева

Дата публикации

10 октября 2024 г.

Аннотация
Курс для магистерской программы НИУ ВШЭ ‘Цифровые методы в гуманитарных науках’ (2024/2025)

Введение

Об этом курсе

Этот сайт содержит материалы к курсу “Компьютерный анализ текста в R” для магистерской программы НИУ ВШЭ “Цифровые методы в гуманитарных науках”. Предыдущую версию курса можно найти здесь.

И тексты, и инструменты для работы с ними подобраны таким образом, чтобы помочь студентам гуманитарных специальностей (филологам, философам, историкам и др.) как можно быстрее, но с полным пониманием дела перейти к применению количественных методов в собственной работе.

Чтобы лучше понимать, какие из этих методов более всего востребованы в научной работе, преподаватели магистратуры “Цифровые методы в гуманитарных науках” – Б.В. Орехов, А.А. Осмоловская и О.В. Алиева – организовали в 2024 г. серию встреч с ведущими представителями отрасли. Видео этих встреч и литературу к семинарам можно найти на сайте http://criticaldh.ru/.

Там мы собрали именно теоретические обсуждения и литературу к ним, а в этом курсе предлагаем приступить к практике DH (на языке R). Оба этих аспекта, в нашем представлении и в программе магистратуры тесно связаны: одного программирования не хватит, чтобы стать “цифровым гуманистом”, а теории недостаточно, чтобы судить об успешности тех или иных цифровых проектов. Поэтому этот курс старается стоять на двух ногах и соединять кодинг с теоретической рефлексией. Это почти невыполнимая задача но когда нам это мешало.

Ресурсы

И в теоретическом, и в практическом плане курс опирается на огромную работу, уже проделанную преподавателями магистратуры ЦМГН. Важнейшие наши достижения собрал Б.В. Орехов: https://github.com/nevmenandr/awesome-dh-hse. Здесь вы найдете ссылки на видео, научно-популярные и научные публикации и датасеты.

Если вдруг вам не хватит практических заданий по R, то в качестве дополнения к оффлайн-курсу можно рекомендовать онлайн-курс Георгия Мороза “Введение в анализ данных на R для гуманитарных и социальных наук”. К этому курсу прилагается онлайн-ноутбук (https://agricolamz.github.io/daR4hs/) с комментариями и всем кодом, и он полностью открыт. Надо иметь в виду, однако, что онлайн-курс рассчитан всего на 9 недель, в то время как наш – на два семестра, так что его можно использовать лишь как вспомогательный ресурс, но не замену.

Программа

Курс 2024/2025 г. включает в себя три основных блока и 24 темы. Программа носит предварительный характер и может быть чуть изменена.

Модуль 1. Основы работы в R

  1. Начало работы.
  2. Таблицы. Опрятные данные.
  3. Визуализации.
  4. Циклы, условия, функции.
  5. Импорт: JSON & XML.
  6. Публикационная система Quarto.
  7. Регулярные выражения.
  8. Консолидация.

Модуль 2. Текст-майнинг

  1. Веб-скрапинг.
  2. Токенизация, лемматизация, POS-тэггинг и синтаксический анализ.
  3. Распределения слов и анализ частотностей.
  4. Эмоциональная тональность.
  5. Латентно-семантический анализ.
  6. Векторные представления слов на основе PMI. Word2Vec.
  7. Тематическое моделирование c LDA.
  8. Консолидация.

Модуль 3. Деревья, сети, карты

  1. Кластеризация и метод главных компонент.
  2. Стилометрический анализ с пакетом stylo.
  3. Консенсусные деревья и сети.
  4. Сетевые данные в igraph.
  5. Графический дизайн сетей в ggraph.
  6. Анализ сетей и обнаружение сообществ.
  7. Пространственные данные в R.
  8. Консолидация.

Модуль 4. Машинное обучение

  1. Регрессионный анализ.
  2. Регрессионные модели с tidymodels.
  3. Алгоритмы для бинарной классификации.
  4. Подбор гиперпараметров модели (tuning).
  5. Многоклассовая классификация.
  6. Кодирование категориальных переменных.
  7. Нейросетевые модели.
  8. Консолидация.

Дополнительные материалы

Этот курс опирается на четыре книги, к которым можно обращаться за дополнительной информацией. Все они находятся в открытом доступе.

1.

2.

3.

4.

Эти книги объединяет общий подход, основанный на идеологии tidy data, и использовать описанные там инструменты можно, не опасаясь проблем совместимости.

Оценивание

Домашние задания выполняются в GitHub Classroom. Еженедельно выполняются небольшие задания, которые оцениваются по бинарной шкале (1/0), раз в месяц – консолидирующие задания на весь пройденный материал (оценка 0-10). Все необходимые ссылки вы найдете в чате курса в Telegram.

Благодарности

За помощь в разработке курса и подготовке датасетов к нему автор благодарит Георгия Мороза и Бориса Орехова. Даниилу Скоринкину я признательная за помощь в работе над главами, посвященными сетевому анализу. Идеей количественного сравнения британских эмпириков в десятой главе я обязана своей коллеге по Школе философии и культурологии НИУ ВШЭ Дарье Дроздовой.

Обратная связь

Если вы заметили ошибку или опечатку, можно сообщить по почте или оставить issue в репозитории курса на GitHub.