[1] 0.604888
2024-05-17
1851: шведский математик и логик Огастес де Морган предположил, что споры о подлинности Послания к евреям святого ап. Павла можно разрешить путем измерения средней длины слов.
1887: Американский геофизик Томас К. Менденхолл проверил гипотезу о том, что длина слов может быть отличительной характеристикой писателей. Он изложил свои идеи в журнале Science.
1859: изобретен спектральный анализ
1901: Менденхолл публикует статью в Popular Science Monthly, в которой показывает, что “характеристическая кривая” Кристофера Марлоу…
…совпадает с Шекспиром примерно так же, как Шекспир совпадает с самим собой.
Тем временем в Европе…
1867: Льюис Кэмпбелл в предисловии к изданию “Софиста” и “Политика” датирует эти диалоги поздним периодом творчества Платона, опираясь на ряд количественных признаков.
1888: К. Риттер впервые собрал десятки различных признаков стиля, таких как вопросоответные формулы, частотность отдельных частиц, и т.п. Но у него нет инструментов многомерного анализа.
1897: Винценты Лютославский, обобщая предыдущие исследования, вывел “Закон стилистической близости”: \(A = x1 + 2 \times x2 + 3 \times x3 + 4 \times x4\)
Развитие статистических методов:
1939: Кембриджский статистик Д. У. Юл сравнил распределение длины предложения в работах Ф. Бэкона, C. Кольриджа, Ч. Лэма и Т. Б. Маколея и пришел к выводу, что авторское распределение длины предложений остается постоянным в довольно узких пределах.
1944: “характеристика Юла” для определения авторства трактата Imitatio Christi Фомы Кемпийского, который иногда приписывался канцлеру Парижского университета Жану Жерсону.
…в период между Менденхоллом и Юлом сама дисциплина статистики получила огромное развитие. Когда Менденхолл писал свои работы, еще не было устоявшихся методик, позволяющих определить, когда различия между разными явлениями являются существенными, а когда — просто результатом случайных колебаний… Еще не было четкого понимания, когда обобщения о больших совокупностях можно смело основывать на изучении сравнительно небольших выборок. — Э. Кенни (The Computation of Style, 1982)
Метод кумулятивных сумм
Громкие “открытия” (и разоблачения)
1971: Э.Мортон и А.Винспир используют cumsum для исследования платоновского корпуса (It’s Greek to the Computer).
1978: Э.Мортон (Literary Detection) приходит к выводу, что только 4 послания ап. Павла являются подлинными.
1993: Неудачное выступление Мортона на британском телевидении.
Выводы раздела 1:
Спорный случай: “Записки федералиста”
1963: американские статистики Ф. Мостеллер и Д. Уоллес опубликовали статью “Inference in an Authorship Problem”», в которой успешно разрешили вопрос о том, кто написал 12 спорных памфлетов из “Записок федералиста”.
Но главная их заслуга не в этом.
Сегодня “наивный Байес” применяется для фильтрации спама и при определении эмоциональной тональности документов.
Дискриминантный анализ позволяет классифицировать объекты по двум или более группам, основываясь на линейной комбинации переменных, которая называется дискриминантной функцией:
\[DF = -0.5\times var_1 + 1.2\times var_2 + 0.85\times var_3\] Дискриминантная функция максимизируют различия между группами и минимизует дисперсию внутри группы по формуле: \(\frac{(\bar{x_1}-\bar{x_2})^2}{s^2_1+s^2_2}\).
Как это работает
NB: Современные имплементации алгоритма отличаются от метода, предложенного Р. Фишером в 1936 г.
Байесовские методы в стилометрии
Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.
Задача: Вы обнаружили бабочку с редким орнаментом на крыльях. У исчезающих бабочек есть такой орнамент с вероятностью 0.99, а у обычных бабочек он встречается только в 2% случаев. При этом лишь 3% видов бабочек находятся на грани исчезновения. Какова вероятность, что бабочка относится к исчезающему виду?
Решение:
На место бабочки 🦋 можно подставить писателя ✍️, а на место узора - слова.
Но слов-признаков много, и нам нужно все учесть:
Знаменатель будет для всех групп одинаков, поэтому:
Отсюда название “наивный Байес”: перемножение вероятностей покоится на допущении их независимости.
Вопрос: Что если в обучающем корпусе слово у какого-то автора не встречается?
Наивный Байес и конструирование признаков:
Линейно-дискриминантный анализ тоже достаточно привередливый:
Выводы раздела 2:
2002: Джон Берроуз предлагает метод классификации под названием Delta. Смотри очень простой пример расчета.
Как считаются расстояния между векторами?
Rolling Delta
Модификации Delta (доступны в Stylo):
Что еще можно настроить: 1. Число признаков 2. Culling. 3. Состав корпуса.
Выводы раздела 3:
Методы машинного обучения делятся на методы обучения с учителем и методы обучения без учителя.
В первом случае у нас есть некоторое количество признаков X, измеренных у N объектов, и некоторый отклик Y. Задача заключается в предсказании Y по X. Например, мы измерили вес и пушистость у сотни котов известных пород, и хотим предсказать породу других котов, зная их вес и пушистость (ср. раздел 2).
Обучение без учителя предназначено для случаев, когда у нас есть только некоторый набор признаков X, но нет значения отклика. Например, есть группа котов, для которых мы измерили вес и пушистость, но мы не знаем, на какие породы они делятся.
KNN - это алгоритм МО, в котором для отнесения объекта к классу используется информация о его соседях:
Первоначальные идеи алгоритма KNN принадлежат Эвелин Фикс и Джозефу Ходжесу (1951), в 1967 г. концепцию развивает Томас Ковер. KNN:
Для демонстрации его возможностей воспользуемся датасетом Galbraith, в котором хранятся частотности для романов следующих авторов:
И “Зов кукушки” уходит… Роулинг!
Выводы раздела 4:
KNN - простой и достаточно эффективный алгоритм МО, который используется для классификации текстов;
для решения отдельных задач он может быть эффективнее, чем NB и LDA (см. раздел 2), но есть и более современные решения.
Кластеризация - это метод обучения без учителя. Два основных метода:
Кластеризация по методу K-средних разбивает наблюдения на некоторое заранее заданное число кластеров.
Иерархическая кластеризация возвращает результат в виде дерева (дендрограммы), которая позволяет увидеть все возможные кластеры. Если такая кластеризация происходит “снизу вверх”, она называется агломеративной.
Вид дерева зависит от способа присоединения: среднее, полное, одиночное.
Вид дерева может меняться в зависимости от:
метрики расстояния
способа присоединения
числа признаков
Консенсусное дерево
Консенсусная сеть. Источник.
Выводы раздела 5:
Глубокое обучение:
Классификация с использованием LDA: точность 0.292 (нулевая модель = 0.18)
Технические подробности:
Выводы раздела 6: