class: center, middle, inverse, title-slide .title[ # Количественные методы в историко-философских исследованиях: как и зачем ] .author[ ### Ольга Алиева ] ---
--- ## Количественные методы и история философии 1. Меры лексического разнообразия: Л. Кэмпбелл и начала стилометрии 2. Наиболее частотные слова: Ф. Бласс и В. Диттенбергер 3. На пути к многомерному анализу: В. Лютославский и Г. Леджер 4. Автоматическая классификация текстов: эксперимент 5. Сравнения слов: векторная семантика 6. Тематическое моделирование --- class: animated, fadeIn ## 1. Л. Кэмпбелл и начала стилометрии .pull-left[ <img src="images/campbell1.png" width=120%> <img src="images/campbell2.png" width=120%> ] -- .pull-right[ - Льюис Кэмпбелл, профессор Сент-Эндрюсского университета в Шотландии; в 1867 году впервые применил количественный метод для датировки диалогов Платона; - опираясь на Lexicon Platonicum Ф. Аста, Кэмпбелл установил, что в «Тимее» и «Критии» содержится в общей сложности 427 гапаксов, а в «Законах» — 1065 слов (всего 1492); - он также составил список слов, которые встречаются несколько раз, но лишь в предположительно поздней группе, и подсчитал количество слов (на страницу), объединяющих каждый из 24 диалогов с «Тимеем», «Критием» и «Законами» ] --- # 1. Пересчитывая Кэмпбелла
--- # 1. Кое-что о гапаксах <table> <thead> <tr> <th style="text-align:right;"> Chunk </th> <th style="text-align:right;"> Tokens </th> <th style="text-align:right;"> Types </th> <th style="text-align:right;"> HapaxLegomena </th> <th style="text-align:right;"> DisLegomena </th> <th style="text-align:right;"> TrisLegomena </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 3000 </td> <td style="text-align:right;"> 663 </td> <td style="text-align:right;"> 359 </td> <td style="text-align:right;"> 110 </td> <td style="text-align:right;"> 43 </td> </tr> <tr> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 6000 </td> <td style="text-align:right;"> 1030 </td> <td style="text-align:right;"> 529 </td> <td style="text-align:right;"> 179 </td> <td style="text-align:right;"> 73 </td> </tr> <tr> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 9000 </td> <td style="text-align:right;"> 1326 </td> <td style="text-align:right;"> 663 </td> <td style="text-align:right;"> 204 </td> <td style="text-align:right;"> 109 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 12000 </td> <td style="text-align:right;"> 1495 </td> <td style="text-align:right;"> 705 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 133 </td> </tr> <tr> <td style="text-align:right;"> 5 </td> <td style="text-align:right;"> 15000 </td> <td style="text-align:right;"> 1725 </td> <td style="text-align:right;"> 814 </td> <td style="text-align:right;"> 265 </td> <td style="text-align:right;"> 139 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 18000 </td> <td style="text-align:right;"> 1988 </td> <td style="text-align:right;"> 923 </td> <td style="text-align:right;"> 321 </td> <td style="text-align:right;"> 164 </td> </tr> </tbody> </table> О распределениях слов см.: - R.H. Baayen. Analyzing Linguistic Data. 8th ed. Cambridge, 2015. - R.H. Baayen. Word Frequency Distributions. Dordrecht, 2001. --- # 1. Type-token ratio: "Законы" Платона <img src="Slides/figure-html/unnamed-chunk-7-1.png" width="100%" /> --- # 2. Наиболее частотные слова: Ф. Бласс и В. Диттенбергер - Ф.В. Бласс. Герменевтика и критика. 2-е изд. М., 2016, с. 189 (Нем. изд. 1892 г.): "Самыми убедительными являются мелкие признаки, те свойственные каждому писателю микроскопические особенности, которых подражатель или не мог заметить, или подражание которым представилось бы слишком трудным. Таковы особенности относительно допущения зияния и соблюдения ритма, употребления известных частиц, избегания других, и т.п." - В. Диттенбергер в статье 1881 г. обратил внимание на то, что частица μήν в некоторых сочетаниях (καὶ μήν, ἀλλὰ μήν, τί μήν, γε μήν, ἀλλὰ … μήν) редко встречается или совершенно отсутствует в одних диалогах, в то время как в других — включая поздние «Законы» — она употребляется все чаще («Апология», «Тимей» и «Критий» не учитывались в силу их преимущественно монологичного характера). Диттенбергер предположил, что изменение произошло после первой поездки Платона на Сицилию в 387 г. до н.э, вероятно под влиянием местного диалекта. --- ## 3. На пути к многомерному анализу: В. Лютославский - Винценты Лютославский (1897) выделил 500 (!) признаков (синтаксические, морфологические, лексические, ритмические, драматические и др.), присвоив каждому 1 из 4-х "степеней значимости" (p. 143), и сгруппировал диалоги по "стилистической близости" (Affinity). У него получилось нечто вроде множественной регрессии: `$$Affinity = x_1 + 2x_2 + 3x_3 + 4x_4$$` <center><img src="images/lutoslawski.jpg" width=40%> --- ## 3. Г. Леджер и многомерный анализ > Предположим, например, что мы хотим идентифицировать различные деревья… Первым требованием будет сбор информации в виде измерений различных доступных функций для каждого дерева… Мы могли бы измерять такие параметры, как вес семени, объем семени, плотность сердцевины, плотность коры, твердость коры, вес листа, количество листовых устьиц на единицу площади и так далее (Re-counting Plato, 1989) <center><img src="images/ledger.png" width=50%> --- ## 3. Текст как вектор Текст или группа текстов могут быть представлены в виде вектора — упорядоченного множества значений, которые называются координатами или компонентами вектора. Для каждой пары векторов может быть вычислено расстояние или сходство между ними; минимальное расстояние или максимальное сходство будут указывать на возможного автора, жанровую близость и т.п. <center><img src="images/dist.png" width=35%> --- ## 4. Автоматическая классификация текстов <center><img src="images/bubbles.png" width=58%> --- ## 4. Точность классификации <img src="images/AccW.png" width=80%> --- ## 4. Вюрцбургская Дельта и Платон <img src="images/plato1.png" width=60%> --- # 4. Вюрцбургская Дельта и Платон (2) <img src="images/plato2.png" width=60%> --- # 5. Векторная семантика > You shall know a word by the company it keeps (Firth 1957) - Мы можем сохранить в виде вектра числе сведения о том, с какими словами соседствует некое слово. - Скользящее окно фиксированной ширины. - Как правило, для этого исполььзуется такой показатель, как точечная взаимная информация (PMI). <center><img src="images/pmi.svg" width=60%> --- # 5. PMI для Corpus Platonicum ``` ## # A tibble: 668 × 3 ## item1 item2 pmi ## <chr> <chr> <dbl> ## 1 γῆ ὕδωρ 3.35 ## 2 γῆ ἀήρ 3.33 ## 3 γῆ σπέρμα 3.20 ## 4 γῆ οὐρανός 3.10 ## 5 γῆ θάλασσα 3.05 ## 6 γῆ καρπός 2.94 ## 7 γῆ σελήνη 2.90 ## 8 γῆ ἄφθονος 2.80 ## 9 γῆ βάθος 2.79 ## 10 γῆ φυτόν 2.73 ## # … with 658 more rows ``` --- # 5. PMI матрица: снижение размерности <img src="Slides/figure-html/unnamed-chunk-12-1.png" width="100%" /> --- # 5. Векторное представление слов
--- # 5. Поиск соседей: два примера <table class="kable_wrapper"> <tbody> <tr> <td> <table> <thead> <tr> <th style="text-align:left;"> name </th> <th style="text-align:right;"> value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> στοιχεῖον </td> <td style="text-align:right;"> 1.0000000 </td> </tr> <tr> <td style="text-align:left;"> συλλαβή </td> <td style="text-align:right;"> 0.7572332 </td> </tr> <tr> <td style="text-align:left;"> τέσσαρες </td> <td style="text-align:right;"> 0.5550332 </td> </tr> <tr> <td style="text-align:left;"> σύγκειμαι </td> <td style="text-align:right;"> 0.5494779 </td> </tr> <tr> <td style="text-align:left;"> συναρμόζω </td> <td style="text-align:right;"> 0.5436764 </td> </tr> <tr> <td style="text-align:left;"> ἀποδέχομαι </td> <td style="text-align:right;"> 0.5138572 </td> </tr> <tr> <td style="text-align:left;"> συντίθημι </td> <td style="text-align:right;"> 0.4997991 </td> </tr> <tr> <td style="text-align:left;"> σχῆμα </td> <td style="text-align:right;"> 0.4875020 </td> </tr> <tr> <td style="text-align:left;"> ὀρθότης </td> <td style="text-align:right;"> 0.4684826 </td> </tr> <tr> <td style="text-align:left;"> ὄνομα </td> <td style="text-align:right;"> 0.4540749 </td> </tr> </tbody> </table> </td> <td> <table> <thead> <tr> <th style="text-align:left;"> name </th> <th style="text-align:right;"> value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> ἀριθμός </td> <td style="text-align:right;"> 1.0000000 </td> </tr> <tr> <td style="text-align:left;"> τέσσαρες </td> <td style="text-align:right;"> 0.6596100 </td> </tr> <tr> <td style="text-align:left;"> περισσός </td> <td style="text-align:right;"> 0.6301475 </td> </tr> <tr> <td style="text-align:left;"> δύο </td> <td style="text-align:right;"> 0.6020630 </td> </tr> <tr> <td style="text-align:left;"> τρεῖς </td> <td style="text-align:right;"> 0.5641127 </td> </tr> <tr> <td style="text-align:left;"> μέρα </td> <td style="text-align:right;"> 0.5626785 </td> </tr> <tr> <td style="text-align:left;"> δώδεκα </td> <td style="text-align:right;"> 0.5506333 </td> </tr> <tr> <td style="text-align:left;"> ἴσος </td> <td style="text-align:right;"> 0.5478324 </td> </tr> <tr> <td style="text-align:left;"> διανομή </td> <td style="text-align:right;"> 0.5377653 </td> </tr> <tr> <td style="text-align:left;"> ἄνισος </td> <td style="text-align:right;"> 0.5257993 </td> </tr> </tbody> </table> </td> </tr> </tbody> </table> --- # 5. Примеры исследований Rodda M., Lenci A., Senaldi M.S. Panta rei: Tracking semantic change with Distributional Semantics in Ancient Greek // _Italian Journal of Computational Linguistics_. Vol. 3. No. 1. 2017. P. 11-24. <center><img src="images/pneuma.png" width=60%> --- # 6. Тематическое моделирование - каждый документ представляет собой набор тем; каждая тема представляет собой набор слов; - на основе распределения Дирихле *alpha* выбирается наиболее вероятное распределение тем в документе — *theta*; на основе распределения тем θ выбирается уже конкретная тема *Z*; - на основе другого распределения Дирихле — *beta* — выбирается самое вероятное распределение слов в теме Z, это распределение слов называется *phi*; из φ выбирается слово *W*; - M — количество документов в корпусе; N — количество слов в документе. <center><img src="images/lda.svg" width=40%> --- # 6. Темы и слова <img src="Slides/figure-html/unnamed-chunk-17-1.png" width="100%" /> --- ## 6. Какие темы связаны с "Тимеем"? ``` ## # A tibble: 10 × 3 ## document topic gamma ## <chr> <int> <dbl> ## 1 Timaeus 10 0.621 ## 2 Timaeus 1 0.143 ## 3 Timaeus 4 0.0798 ## 4 Timaeus 2 0.0746 ## 5 Timaeus 3 0.0369 ## 6 Timaeus 7 0.0207 ## 7 Timaeus 5 0.0102 ## 8 Timaeus 6 0.00971 ## 9 Timaeus 9 0.00202 ## 10 Timaeus 8 0.00192 ``` --- # Документы и темы <img src="Slides/figure-html/unnamed-chunk-19-1.png" width="100%" /> --- # LDA для автоматической детекции философии в корпусе Koentges Th. _Measuring Philosophy in the First Thousand Years of Greek Literature_ // Digital Classics Online Vol. 6. No. 2. 2020. .pull-left[ <img src="images/koentges1.png" width=80%> ] .pull-right[ <img src="images/koentges2.png" width=90%> ] --- class: center, middle # Спасибо за внимание! Slides created via the R packages: [**xaringan**](https://github.com/yihui/xaringan)<br> [gadenbuie/xaringanthemer](https://github.com/gadenbuie/xaringanthemer) The chakra comes from [remark.js](https://remarkjs.com), [**knitr**](http://yihui.name/knitr), and [R Markdown](https://rmarkdown.rstudio.com).