синергетическая лингвистика и другие впечатления

ВВЕДЕНИЕ

Давно собираюсь рассказать о своих впечатлениях от поездки в Падую на IQLA-GIAT Summer School in Quantitative Analysis of Textual Data. Школа проводилась в этом году первый год, основным фокусом было объявлено Authorship Attribution. У меня, откровенно говоря, были некоторые сомнения ехать туда или не ехать — все-таки определение авторства не совсем моя тема, и имена лекторов были мне не знакомы. Но в конце концов я все-таки решила поехать и не только не пожалела об этом, а, напротив, могу сказать, что школа существенно расширила мой профессиональный кругозор.

Преподаватели были, в основном из двух коллективов: междисциплинарной итальянской группы по анализу текста и исследователей, которые группируются вокруг международной ассоциации квантитативной лингвистики. Вот эти последние произвели на меня самое большое впечатление. Главной звездой школы был триерский профессор Рейнард Кёлер, основатель синергетичнской лингвистики. На фотографии он скромно расположился слева на самом краю. Рядом с ним — профессор Арьюна Туцци, один из главных организаторов школы. На границе стены и двери можно различить Андрея Белянкова, тоже из Триерской группы.  Все остальные — это слушатели школы, примерно пополам лингвистов и программистов, и еще по половинке психологов и математиков. Меня опознать нетрудно — я в синих кроссовках.

СИНЕРГЕТИЧЕСКАЯ ЛИНГВИСТИКА

Но вернемся в к профессору Кёлеру. На школе он прочитал две лекции. Первая из них  называлась «Methodology: measuring and testing» и была посвящена, в основном, критике лингвистических методов по сравнению с другими гуманитарными науками, такими, как, например, социология. В лингвистике часто используются неподходящие параметры, не проверяется статистическая достоверность, а когда проверяется, используются неподходящие тесты. Язык не является генеральной совокупностью, корпус не является выборкой, языковые единицы распределены не нормально. Но это мало кто осознает, статистики заимствуются и используются некорректно.

Вторая лекция профессора  Кёлера называлась «Linguistics Laws» и в ней он, наоборот, предлагал свою позитивную программу. Он говорил о том, что законы в лингвистике должны пониматься так же, как они понимаются в физике; закон как универсальная гипотеза, логически связанная с другими гипотезами в области и проверенная экспериментально; теория как совокупность аксиом, гипотез и законов. Термины «теория», «закон» в лингвистике тоже используются, но употребляются не совсем корректно, обозначая скорее методы и правила, чем законы и теории в естесвеннонаучном смысле. Тем не менее, «настоящие» законы в лингвистике тоже есть.

Кёлер начал со всем известного закона Ципфа о том, что частота единиц в тексте пропорциональна их рангу. Подобных законов обнаружено уже довольно много. Например, закон Мензерата-Альтмана, который гласит, что чем длиннее языковая  единица, тем короче составляющие ее единицы меньшего уровня: чем длиннее  предложение в клаузах, тем короче сами клаузы если считать в словах; чем длиннее клаузы, тем короче слова; чем длиннее слова, тем короче слоги/морфы; и так далее. Это можно записать в виде формулы: y=axbe-cx, где y — длина единицы верхнего уровня, x — средняя длина вложенных единиц

Понятно, что все эти законы носят вероятностную природу и экспериментально должны проверяться на корпусных данных. При этом отличие от чистой статистики в том, что законы имеют «физический смысл», т.е. могут быть объясняться общими соображениями о природе языка.Рисунок1Таких законов уже найдено с полсотни (если вы найдете еще один, пожалуйста, напишите профессору Кёлеру), они собираются на специальном сайте , где все статьи, посвященные законам, имеют примерно одинаковую структуру. Вот, например, статья «Полисемия и длина«. Сначала идет история вопроса, потом формулируется основная гипотеза словами: «длина это функция полисемии». Затем следует математичнская формула и ее вывод. Начинается все с дифференциального уравнения:

, где L — это длина единицы, P — это полисемия, a и b — это константы-коэффициенты. Производная в данном случае не имеет смысла изменения чего бы то ни было во времени; тут скорее моделируется такой вопрос: если чуть-чуть изменить длину слова насколько (в среднем) изменится число его смыслов; ответ, понятно, зависит от текущих значений L и P. И эти значения не обязательно целые, т.к. речь идет не о конкретном слове конкретной длины, а о средних по языку (корпусу).

Решение уравнения выглядит вот так:  , и эту закономерность можно проверять в экспериментах. Вот тут в таблице показаны результаты экспериментов: в первом столбце — число смыслов (берут, видимо, из словаря: для конкретного слова может быть неточно, но в усреднении работает); во втором столбце — экспериментально наблюдаемая длина слов, в — третьем, предсказанная по теории. На графике видно, насколько точно одно другому соотвествует.

Данный пример взят из маорийского языка; в статьях про другие законы примеры приводят из разных язков, не всегда таких экзотических; иногда дается несколько примеров. Заканчивается все библиографией, где по возможности собраны работы всех, кто изучал эту закономерность, на материале различных языков.

Свен Нойман, тоже из триерского университета, читал на той же школе лекцию под названием «Quantitative Syntax Analysis«, в которой приводил еще больше примеров такого подхода. Например, из общих соображений понятно, что синтаксическая структура не должна быть ни слишком глубокой (тогда будет трудно воспринимать слишком много уровней вложенности), ни слишком широкой (слишком много конституентов одного уровня тоже сложно запомнить). Т.е. на предложение действуют как будто две разнонаправленные силы: одна стремится сделать структуру максимально плоской (но длинной), другая — максимально компактной (но глубокой). Формально это можно записать такой формулой:
Рисунок4, где T — это глубина конституента, P — его позиция, R — параметр, отвечающий за максимальную компактность, B — за минимальную глубину. Иными словами, вероятность того, что конститует будет продолжен «в глубину» тем ниже, чем больше его текущая глубина, но тем выше, чем «правее» расположен конституент. Решение этого уравнения определяет зависимость между T и P.

T = APRe-BP              (Y*)  

— Y* здесь символизирует тот факт, что данная закономерность — это модифицированная гипотеза Ингве. Которую можно проверять в экспериментах:

Рисунок10

The empirical dependence of depth of embedding on constituent position for the entire Susanne corpus (dots) and results of fitting function (Y*) to the data.
T = 1.8188P3.51e0.00423P  |  R2 = 0.996

Другой пример связан с порядком слов. Рассмотрим два синонимичных примера:

She gave him a box.
She gave a box to him.

Здесь порядок коституентов внутри материнского конституента жестко не задан, и в случае, когда они оба которкие, является более-менее свободным. Однако очевидно, какой порядок слов предпочтителен в следующей паре примеров:

I  gave to Mary the valuable book that was extremely difficult to find.
I gave the valuable book that was extremely difficult to find to Mary

Т.е. правила грамматики не запрещают, но появление длинного конституента перед коротким крайне мало вероятно. И вот это уже можно подсчитать по корпусу. Вот табличка из работы триерского студента Хофмана. Там рассматривались немного другие конструкции, но суть та же: подсчитывается сколько раз длинный конституент ставится вперед короткого.

Рисунок11length — это длина конституента (в словах), PFRQ — это число потенциальных сдвигов (то есть, попросту, сколько было конституентов такой длины, AFRQ — число актуальных сдвигов (сколько раз этот конститует ставился на второе место после более короткого конституента), RFRQ — отношение одного к другому. Видно, что начиная с некоторой длины, все конституенты ставятся на первую позицию.

В целом такой подход, насколько я понимаю, позволяет преодолеть проблему бесконечности синтаксиса: какой бы ни была сложной и длинной структура, ее всегда можно ее расширить и вглубь и вширь. Правила не запрещают ни сколько угодно длинных, ни сколь угодно сложных конструкций. В тексте можно встретиться все что угодно, но вероятности тех или иных явлений подчиняются строгим законам, столь же  неумолимым, как и законы гравитации. С практической точки зрения это означает, что синтаксические парсеры могут учитывать вероятностные распределения в данных, и в случае неоднозначности выбирать наиболее вероятный вариант разбора. Замечу, что этот последний абзац — уже не пересказ лекций, а мои мысли по мотивам.

Но вернемся к профессору Кёлеру. В конце своей лекции он показал самое сногсшибательное: все законы в одной схеме.Рисунок123

Ну не все, на самом деле это одна конкретная подсистема. На этой схеме стрелочка от одного узла к другому обозначает сложение, а когда узел находится на стрелочке — умножение. Степеней тут не предусмотрено, поэтому схема представляет собой логарифмированные версии законов. Каждый фрагмент этой схемы — отдельная гипотеза, которая проверяется в экспериментах и согласуется с остальными (после этого становясь законом). Более того, на основе таких схем можно строить новые гипотезы и проверять их на данных, заодно перепроверяя и всю схему целиком — т.е. всю накопленную на сегодняшний день теорию. Таким образом теория обладает предсказательной силой.

Рисунок122

В конце лекции я спросила профессора, что же здесь синергетического? Ведь синергетика — это теория хаоса, а тут все так жестко детерминировано. Он ответил, что за каждой из этих стрелочек (за каждым из законов) кроется стохастический процесс, который стягивается к таким вот закономерностям. Кёлер убежден, что язык — это самоорганизующаяся динамическая система. У этой системы нет равновесного состояния (язык все время меняется и ни в каком состоянии не останавливается), но есть совокупность параметров, которая определяет ее поведение.

Часть этих мыслей профессор излагал мне уже не на лекции, а во время товарищеского ужина, за вином и пиццей. Я думала, что надо во время ужина подойти к профессору, позадавать ему разных вопросов, но он подошел ко мне сам и сказал, что хочет более подробно ответить на вопрос, который я задала на лекции. Он вообще очень милый, говорит тихо, внимательный. Спрашивал меня, откуда я, и вспоминал разных русских и финских ученых. В последний день, когда у него не было лекций, специально пришел, чтобы со всеми попрощаться — так появилась фотография, которую я разместила в начале поста. В общем, всех совершенно покорил и очаровал.

Завершая тему синергетической лингвистики, хочу сделать два замечания, Во-первых, уже вернувшись со школы, я узнала, что похожими исследованиями у нас в университете Герцена много лет занимался знаменитый Пиотровский. К сожалению, это прошло мимо меня, хотя я он нем, конечно, слышала.

Во-вторых, ассоциация квантитативной лингвистики ежегодно проводит конференцию QUALICO — там-то все эти удивительные люди и собираются. К сожалению, я очень затянула с написанием этого поста, и дедлайн на конференцию подступил совсем близко — уже 15-го декабря. Но там требуются только тезисы на 500 слов, так что если уже имеются наработки, успеть можно. Синергетические подходы не обязательны, принимаются любые работы связанные с количественными исследованиями языка.  Так же ассоциация выпускает Journal of Quantitative Linguistics.

ОПРЕДЕЛЕНИЕ АВТОРСТВА

Еще немного моих впечатлений о школе. На самом деле, там практически все лекторы были блестящие, я слушала с огромным интересом даже тогда, когда материал уже был мне знаком. Но все пересказывать не буду, останавлюсь только на лекции Георга Микроса, которая называлась «Machine learning methods in authorship attribution and profiling» и произвела на меня большое впечатление ясностью и точностью расставляемых акцентов.

Рисунок111 Микрос начал со сравнения стилометрии и биометрии, и говорил о том, что биометрические методы на сегодня намного более достоверны, чем стилометрические, хотя и те и другие могут использоваться в суде и влиять на судьбы людей. Он приводил пример популярной в 60-е техники CUSUM, которая использовалась в британском суде, и как минимум шесть раз влияла на ход процесса. На самом деле техника представляет собой субъективный анализ на основе двух произвольно выбранных параметров и не выдерживает серьезных статистических тестов.

С тех пор подход к определению авторства ужесточился, сформулировано несколько строгих принципов, которые в целом можно описать одной фразой «There are no short-cuts in attribution studies». Т.е. сложное должно оставаться сложным, авторство нельзя определять «на глазок» и лучше оставить текст анонимным, чем приписать не тому автору.

Эта была единственная лекция, которая проводилась вечером, уже после анатомического театра и традиционного в Падуе студенческого коктейля; пока Микрос говорил, в гиганском соборе святого Антония, расположенного стена к стене с факультетом, начали бить колокола.

Миркос говорил  о том, что в основе технологии определения авторства лежит несколько предположений: что у каждого человека есть определенные черты стиля («отпечатки пальцев»), которые позволяют однозначно определить авторство; что черты эти неизменны во времени и не зависят от типа текста; что написание текстов нельзя полностью сознательно контролировать (иначе мы все могли бы писать как Лев Толстой). Большое число экспериментов показывает, что, похоже, все так и есть. Однако за этими предположениями не стоит никакой серьезной теории, и это афинский профессор считает одним из  самых серьезных недостатков современной стилометрии. Причину такого положения он видит в том, что эта область в известной степени оккупирована computer scientist’ами, которые не слишком задумываются о теоретических обоснованиях, лишь бы работало. Те же, кто должны разрабатывать теории в данном случае — лингвисты, психологи, когнитивщики — не готовы говорить на языке точной науки, не понимают статистики, и т.п. Таким образом там, где должна быть теория, образовался вакуум.

Я тут привела только то, что заинтересовало и стало новым для меня в лекции Микроса, то есть примерно введение и заключение его лекции. А большая часть была, действительно, посвящена машинному обучению и, на мой вкус, была неплохим введением в эту область.  В частности, он сказал, что большая часть реально работающих приложений в сфере определения авторства использует n-граммы, хотя постоянно ведутся эксперименты по применению других моделей.

ПRАКТИКА

Помимо лекций на школе была еще и практика. Именно числом компьютеров в классе — 20 штук — определялось число участников школы. На открытии Арьюна говорила, что они были впечатлены нашими заявками, что состав очень сильный и интересный, и что «one third of the application was…» — следующее слово разные партисипанты услышали по-разному, одни показалось что excluded, другим — что included. Я в партии included, хотя excluded звучит приятнее.

Практика мне в целом понравилась меньше лекций, хотя там тоже было много любопытного. Главный вывод, который я сделала, это что R — это настоящий мейнстрим квантитативной лингвистики. Пара лабораторных была про то, как писать на этом языке простые скрипты для анализа лингвистичнских данных. Кроме того, показывали несколько пакетов, в основе которых лежит все тот же R — плюс графический интерфейс, заточенный под специальные лингвистические нужды.

Например, TXM — с виду обычный корпус менеджер, хотя и со множеством встроенных опций. Написан поверх R, поэтому быстрый; и любую выборку, найденную по корпусу, можно преобразовать в R-объект, тут же из интерфейса вызвать R и посчитать какие-нибудь статистики. В сумме получается эффективный корпус-менеджер со встроенными возможностями статистичесеого анализа.

Но больше всего мне понравился инструмент под названием Iramuteq, который позволяет анализировать корпусы, в том числе делать компонентый анализ, находить слова, наиболее характерные для выделенных в корпусе классов, кластеризовать (каким-то очень точным и шустрым алгоритмом кластеризации) и все это визуализировать в виде ошеломительно красивых картинок, вроде той, что представлена над этим абзацем. И тоже написан поверх R.

У этого инструмента есть только один недостаток — французский интерфейс и полностью французская документация. Я-то думала, это не большая беда, уж с интерфейсом-то я смогу разобраться, но не тут-то было. Подгружать в него свои данные, нажимать какие-то кнопки и порождать картинки разной степени осмысленности я научилась; но разобраться, что значит тот или иной параметр, и какие конкретно манипуляции с данным производятся, не смогла. А когда я спросила у разработчика (Pierre Ratinaud), есть ли у него публикации с описанием используемого алгоритма крастеризации, он ответил, что публикации есть, но тоже на французском.

В целом, у меня сложилось впечатление, что без знания французского Iramuteq можно использовать только для иллюстраций, но не для настоящих исследований. В следущем релизе, правда, обещают все перевести.

Завершая эту секцию надо, наверное, упомянуть, что Gries только что объявил очередной буткамп по R для языковой статистики. Судя по доходившим до меня сведениям, учат там хорошо, так что если у вас есть лишняя тысяча долларов, это не худший способ ее потратить.

ЭПИЛОГ

И если бы вы знали, какая вкусная в Италии ветчина…

 

Об авторе Лидия Пивоварова

СПбГУ - старший преподаватель, University of Helsinki - PhD student http://philarts.spbu.ru/structure/sub-faculties/itah_phil/teachers/pivovarova
Запись опубликована в рубрике Курсы/Образование/Постдоки, Обзоры/Редакционное. Добавьте в закладки постоянную ссылку.

4 комментария: синергетическая лингвистика и другие впечатления

  1. Artem Lukanin говорит:

    Вот те раз, а я считал основоположником лингвистической синергетики Пиотровского Р.Г., даже рецензию на этот его основной труд писал (Лингвистическая синергетика: исходные положения, первые результаты, перспективы. СПб.: Филологический факультет СПбГУ, 2006.).

    • Я думаю, это нормально, что основоположников несколько.
      И в любом случае, Кёллер сам себя не называл основоположником, так его отрекомендовали восторженные поклонники из числа слушателей. А Пиотровского он упоминал несколько раз, и подробно разбирал его Piotrowski law.

  2. Yauhen говорит:

    Лидия, благодарю за труд!
    Статья и полезная, и приятная. Сохранил себе, чтобы попробывать упомянутые подходы и инструменты.
    Продолжайте делиться опытом с сообществом — Вам есть о чем рассказать!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *