NAACL: дневник партисипанта

Мне посчастливилось  попасть на конференцию NAACL 2013 — одну из  крупнейших конференций по компьютерной лингвистике.  Возможно, мои впечатления кому-то покажутся интересными. Я решила их записывать в формате дневника, т.е. день за днем по свежим следам.

9 июня, тюториалы

Основная конференция начинается в понедельник, но в предшествующее ей воскресенье проходят тюториалы: трехчасовые обучающие лекции. Регистрироваться на них надо отдельно от основной конференции и стоят они, кстати сказать, недешево — 90$ за одну лекцию. Лекции проходили в параллель, три утром и три вечером.

Самым популярным тюториалом в утренней сессии был Deep Learning от звезд Стэнфордского университета. На других двух лекциях было всего человек по десять. Я пошла на «Towards Reliability-Aware Entity Analytics and Integration for Noisy Text at Scale» от IBM Research India.

Откровенно говоря, лекция немного разочаровала. Я не очень привычна к индийскому акценту, а лектор еще и рассказывал тихо, и слайды у него были бледные, половины не рассмотреть.  Но основная идея была в том, что сейчас данных становится все больше и они все менее надежны — речь идет, разумеется, о росте социальных сетей. Утверждается, что к 2015-му году 80% информации будет приходить из ненадежных источников. При чем ненадежность бывает разная: ненадежна может быть сама информация, либо результаты ее обработки, вследствие нестандартного написания.

И вот со всем этим надо как-то работать. Приводили множество примеров, некоторые из них довольно забавные. Например, они по заказу индийской почты занимались унификацией адресов. Потому что, в Индии адреса пишут как придется: используют разные обозначения для улиц (для самого слова «улица») в зависимости от региона, пропускают целые куски адреса, используют указания типа «дом возле школы», в общем, вполне позволяют провести полноценное исследование про верификации и унификации данных. Еще они работают с аудиоданными, с пробками. Много уделяют внимания твиттеру и языку смс.

В общем, по итогам тюториала я выписала несколько ссылок на литературу и с удовольствием отметила, что мы у себя на северах работаем вполне в тренде. Но хотелось бы как-то больше технических деталей. Хотя, возможно, тем, кто много работает с социальными сетями, был полезен обзор методов приведения неграматичного текста к граматичному.

На вечернюю лекцию я изначально регистрировалась на «Semantic Role Labeling», но  в последний момент передумала и пошла на «Spectral Clustering».  Там яблоку было негде упасть. Возможно, потому, что одним из лекторов был Майкл Коллинз, который недавно читал онлайн курс по nlp.

Тут  было целых четыре лектора, которые по очереди сменяли друг друга, все происходило довольно живо и весело. Многовато времени потратили на повтор понятий из линейной алгебры, и из-за этого не успели дойти до topic modelling. Но зато дальнейшее изложение было абсолютно ясно. Ну как ясно, до определенной степени. За алгоритмом построения марковской цепи я не успела уследить. Но общие идеи понятны. Поразило, что алгоритмы с разложением матриц называли быстрыми: во-первых, есть улучшенные быстрые алгоритмы; во-вторых, проводили замеры по времени для сравнения с EM — весь алгоритм, основанный на разложении матриц, занимает столько же времени, сколько одна итерация EM. Ну а больше всего заинтересовала работа по кластеризации лексики.

Вечером была устроен приветственный фуршет. Из еды меня больше всего поразила огромная говяжья (?) нога, которую жарили прямо в фуршетном зале, постепенно отрезая ломти и складывая их на блюдо для всех желающих. Мне сказали, что это очень типично для южных штатов — собственно, барбекю.  На вечеринке поначалу было немного неуютно, потому что я совсем никого не знала, кроме коллеги из Литвы, которого видела пару лет назад на другой конференции. Но потом я познакомилась со студентами из Непала, которые приехали без доклада из университета, расположенного тут неподалеку. Они сказали, что в Америке чувствуют себя небезопасно, потому что тут все время стреляют. А когда подошла их научная руководительница, очень резво стали доставать из карманов талончики на бесплатную выпивку, приговаривая, что второй напиток им вовсе и не нужен и они с радостью их ей отдадут.

Мой номер расположен на 51-м этаже, с окном на всю стену и видом из окна, который я не устаю фотографировать. А основные мероприятия конференции проходят между шестым и десятым этажами. На улице идет дождь, из отеля я еще не выходила.

10 июня, neuroscience, information extraction, topic modeling, posters

Основную программу конференции открыла приглашенная лекция Джины Куперберг, профессора neurocsience. Она рассказывала, как вероятности появления тех или иных слов тексте и их информативность можно увидеть на энцефалограмме. Например, если человек слышит/читает предложение «Он намазал на теплый хлеб носки», на слове «носки» энцефалограмма фиксирует всплеск определенного типа. При этом бывают разные виды удивления: expected и unexpected surprise, которые по-разному выглядят на энцефалограмме. Таким образом можно изучать механизмы восприятия и адаптации.

Но конкретные детали от меня как-то ускользнули, возможно потому, что в зале было очень холодно.  В перерыве пошла в сувенирный магазин и купила себе фуфайку с сердечком и надписью «Atlanta». За покупку полагалась пятидесятипроцентная скидка на следующую, так что теперь у меня есть две фуфайки с надписью «Atlanta». Но на следующей секции я все равно сильно мерзла.

Секции идут по три в параллель, я пошла на Information Extraction. Зал, отведенный под параллельную секцию, напоминает небольшой ангар и народу здесь было человек сто. Было четыре доклада. Первый,  Huang & Riloff, представлял довольно остроумную модель  машинного обучения для автоматического построения паттернов. Вместо того, чтобы учить паттерн целиком, модель учит отдельные фасеты — триггер события, агента и цель. Правда, как отметил кто-то из аудитории, эти фасеты отличаются для разных типов событий, и не факт, что с другим типом будет так же хорошо получаться.

А больше всего запомнился последний доклад, Riedel et al., посвященный Open Information Extraction. Идея этого модного направления заключается в следующем: из текста извлекаются отношения, набор которых заранее не определен. Если две сущности появились рядом в тексте, значит они связаны каким-то отнощением. И это отношение описывается просто фрагментом текста — паттерном, в которым эти сущности встретились. Понятно, что в этом случае отношения надо как-то группировать, т.к. одно и то же отношение может описываться разными паттернами. Вот в статье и предлагался метод группировки таких отношений. Создается большая матрица, каждый столбец соответствует одному отношению, каждая строка — паре сущностей. В клетках стоят единицы, если отношение было извлечено из текста, нули, если точно известно, что такого отношения нет и пробелы во всех остальных случаях. Цель алгоритма — заполнить эти пробелы. Для технических подробностей надо читать саму статью, но идея мне запомнилась и понравилась.

В перерыве был объявлен student lunch. Я думала, это означает какой-то social event, но никакой официальной программы не было, а была просто еда для студентов. Во время ланча познакомилась с разными людьми, с которыми у меня оказались общие знакомые — стало веселее.

А после ланча я отправилась на секцию по topic  modeling. Секция проходила все в том же зале — последний раз я так мерзла на КИИ в Дубне. Само по себе topic modeling, как я поняла, задача уже решенная, теперь на переднем крае topic labeling и topic segmentation. Такое ощущение, что уже отдельная, очень развитая область, мне просто из докладов трудно было что-то понять. Запомнился доклад Paul & Dredze из Johns Hopkins — здесь половина народу из Johns Hopkins  — про то, как с помощью модифицированного LDA извлекать информацию о действии различных веществ с наркоманских форумов. Все время появляются новые наркотики, отслеживать и классифицировать их обычные врачи не успевают, а на форуме все написано — и как, и куда, и сколько, и что с этого будет.

Последней секцией стало представление стендов с говорящим названием  «Poster madness» — более шестидесяти докладчиков выстраиваются в длинную очередь, чтобы всего за одну минуту изложить содержание своего доклада. По истечении минуты публика дружно издает один хлопок и на сцену выбегает следующий докладчик. Было много забавного, многие специально включали в свою презентацию что-то смешное для привлечения внимания. Но понять что-то по существу было практически невозможно, и на месте докладчиков совсем не хотелось оказаться.

В график уложились со свистом, так что мне наконец удалось покинуть гостиницу и посмотреть вблизи на то, что я уже успела рассмотреть с высоты 51-го этажа. В городе жарко влажной тропической жарой, дети купаются в фонтане. Несмотря на небоскребы и бетонные блоки, есть впечатление маленького уютного городка — скорее всего, обманчивое.

Сама стендовая секция было совмещена с банкетом. Кормили вкусно, было весело, людно и шумно. Правда и докладчикам, и слушателям приходилось кричать, и едва ли я обошла хотя бы половину того, что в принципе могло бы мне быть интересно. Но кое-что интересное успела для себя отметить. Вот, например, Anafora — open-source инструмент разметки текстовых данных: https://github.com/weitechen/anafora
http://aclweb.org/anthology/N/N13/N13-3004.pdf
Авторы утверждают, что с кириллицей нормально работает, я специально у них спросила.

11 июня, best papers, sentiment analysis, information extraction, banquet

День начался с представления лучших работ: лучшей короткой статьи и лучшей студенческой статьи. Они были вынесены на пленарную сессию в огромный холодный зал с люстрами.

Лучшая короткая статья называлась «The life and death of discourse entities».  В основе лежит довольно простая идея: примерно половина сущностей в тексте не кореферентна, т.е. упоминается только всего раз. Поэтому прежде чем разрешать кореференцию, можно попытаться разклассифицировать сущности (то есть просто все именные группы в тексте) на кореферентные и некороферентные. Авторы построили такой классификатор, используя морфологические, грамматические и синтаксические свойства контекста, и таким образом улучшили качество существующей системы кореференции и получили красивые дипломы в рамочках.

Лучшую студенческую статью представлял Гжегож Кондрак. Он вообще-то не студент, а руководитель, но студент почему-то не приехал. Этот доклад мне был особенно интересен, т.к. когда мы готовили статью про транслитерацию я прочла с десяток его статей. Кондрак внешне флегматичный, говорит практически безэмоционально, но на его докладе часто смеялись. Речь шла об английском респеллинге, когда сложные слова типа hyperbole перезаписывают так, чтобы их можно было читать: high-purr-boh-lee. Для этого использовался целый каскад преобразований, как основанных на правилах, так и использующих машинное обучение.

Потом все разошлись по секциям и я отправилась на Sentiment Analysis and Topic Modeling. Там тоже представляли короткие статьи и докладчики говорили примерно в два раза быстрее, чем вчера. Было довольно много любопытного.  Brooke & Hirst применили LDA для определения стиля и жанра. Стиль у них описывался через три параметра: абстрактность/конкретность, субъективность/объективность и литературность/разговорность. А жанр можно описать как сочетание этих параметров. Например, новости объективные конкретные литературные, и т.п. На вопрос, а откуда вы знаете. что то, что находится алгоритмом — это именно стилистические параметры, а не  тематические, докладчик ответил, что  поскольку они изначально задают малое число топиков в LDA, этими топиками не могут быть настоящие темы, которых в корпусе гораздо больше. Таким образом модель «принуждают» категоризировать текст на очень высоком уровне абстракции, т.е., очевидно, на уровне стилистических различий.

Preiss&Stevenson  использовали LDA для разрешения неоднозначности. Они опираются на известный принцип «one sense per discourse», только discourse в данном случае понимается не как документ, а как topic.

Мягкий восточный человек с вкрадчивой улыбкой выступал на тему «opinion about opinions about opinions». Речь шла о том, что те мнения которые извлекаются современными техниками opinion mining, это, возможно, не те мнения, которые видит в тексте адресат. Все видят разное, часто не то, что изначально предполагалось автором, и непонятно, какой толк от якобы «объективного» мнения, извлекаемого из текста. Аудитория, правда, не очень оценила эти рассуждения и сразу несолько человек сказало, что извлечение мнений — это одно, а исследование воздействия на аудиторию — это другое. Но меня все же порадовало, что такого сорта статья, «opinion paper»,  действительно может пройти рецензирование и быть принятой на конференцию.

Последний доклад в секции был довольно забавен и назывался «An examination of regret in bullying tweets». Исследовали изучали твиты, посвященные всяким издевательствам и замеряли, как много из них было впоследствии  удалено. Т.е. люди сначала твитят как над ними издевались в надежде получить сочувствие, а потом пугаются, что будет только хуже и этот твит удаляют. Чаще удаляют твиты, написанные ночью. Больше всего удаляют сразу после написания. Самые удаляемые слова: suiside, kill, r.i.p, fat. В общем, много интересных наблюдений, однако построить модель, которая бы предсказывала удаление твита, авторам пока  не удалось.

В перерыве была устроена небольшая ярмарка книг из серии «Synthesis Lectures on Human Language Technologies«. Помня напутствие соавтора «покупать всё», купила сразу четыре штуки: «Semantic Relations Between Nominalsno access«, «Sentiment Analysis and Opinion Miningno access«, «Discourse Processingno access» и «Statistical Language Models for Information Retrievalno access«. Хотя человек, который их распространял, честно предупредил меня, что в библиотеке нашего университета эти книги есть. Подробно почитать я их, естественно, еще не успела, но выглядят они как краткое изложение самых передовых методов в своих областях. Должны быть полезны.

Когда я, прижимая к груди все четыре книжки, шла обратно к лифту, на встречу мне попался Грэм Хёрст, главный редактор серии. Кажется, выражение моего лица доставило ему удовольствие.

После этого было еще две длинные сессии по Information Extraction и Question Answering. Я оделась потеплей, и почти не мерзла, зато отчаянно боролась с джетлагом и, возможно, поэтому сессии мне понравились меньше. Заинтересовал доклад Kokhlikyan et al. про автоматическое моделирование риторической структуры: самыми важными для этой задачи оказываются те слова, которые встречаются в большинстве текстов коллекции и при этом встречаются примерно в одних и тех же позициях (в конце, в начале и т.п.).

Lamb et. al рассказывали про мониторинг эпидемии гриппа на основе Твиттера. Меня заинтересовало упоминание Carmen —  свободной системы геолокации твитов.

Вообще, каждый доклад предлагает какой-то новый алгоритм, или, как минимум, улучшение или нестандартное применение предыдущих. От этого возникает общее ощущение, что наука ушла далеко вперед, а то, что мы делаем — это методы прошлого века. В то же время, помимо постоянного придумывания новых алгоритмов, хотелось бы каких-то советов (инсайтов) по нашей практической работе. Т.е. хотелось бы, чтобы так называемые «стандартные» методы как-то попадали в сферу внимания научного сообщества. Если метод давно известен, это еще не значит, что его приложение к конкретной задаче совсем уж очевидно.

День закончился банкетом в музее Кока-Колы. Вряд ли бы мне самой пришло в голову туда идти, но музей оказался очень интересным. Много интерактивных экспонатов  — в том числе, конечно, питьевые автоматы, из которых можно пробовать вариации лимонадов со всего мира. Четыре-D кинотеатр, где не только трехмерное изображение, но и сами кресла дергаются, вздрагивают и шевелятся. Кока-коле, как оказалось, уже больше ста лет и в музее собрано огромное количество рекламных материалов — в том числе, например, картины Нормана Рокуэла. В маленьком кинозале крятят рекламные ролики за последние пятьдесят лет со всего мира. Много информации об истории компании за последние сто лет, и  как-то это все неожиданно интересно. Плюс специально для нас устроили музыку и угощения, и от всего вместе было ощущение настоящего праздника.

Любопытно, что все здесь расспрашивают меня о Финляндии, или рассказывают о своих знакомых финнах. Например, по дороге от музея к гостинице меня спросили, бывает ли когда-нибудь в Хельсинки такая жара. «Конечно, — ответила я. — В сауне».

12 июня, keynote, social media, semantics and syntax

День начался с приглашенной лекции профессора Kathelen McKeown из Колумбийского университета. Лекция называлась «Natural language applications from fact to fiction» и в ней МакКьюэн кратко обрисовала работы, которые в последние проводились их группой. Рассказывала про то, что разные жанры — новости, научные статьи, интернет-форумы, художественные — ставят перед исследователями разные задачи, и некоторые из них уже научились решать, а к некоторым еще только-только подступаются. Я себе многое пометила, но главное, решила, что надо обязательно почитать ее статьи — по крайней мере те, которые касаются новостей.

Потом я пошла на секцию, посвященную анализу социальных сетей. Первым докладчиком был David Yarowsky, который представлял работу Bergsma et al, про кластеризацию Твиттера. Они используют очень большой массив данных о том, кто с кем взаимодействует в Твиттере, чтобы предсказывать пол, возраст, язык, местоположение и тому подобные характеристики пользователей. В основе лежит идея о том, что пользователям свойственно образовывать сети с себе подобными — маленькие девочки больше общаются с маленькими девочками, люди с  одним языком кучкуются вместе и т.п. Так что надо «всего лишь» кластеризовать граф Твиттера, вершинами которого являются пользователи, а связями любые упоминания друг друга в виде @username . Эту задачу они решают следующим образом: каждый пользователь в Твиттере — это своего рода вектор из имени, фамилии, юзернейма, местоположения и т.п. При этом некоторые из этих полей у пользователя могут быть пустыми. Большой граф разбивается на несколько отдельных графов — отдельно граф имен, граф фамилий и т.п. Каждый из них кластеризуется отдельно, и в результате Смит оказывается в одном классе с Вессоном, а Иванов — с Петровым и Сидоровым. Причем сами кластеры авторы сделали общедоступными! Русские имена, написанные кириллицей, там тоже есть. Последний шаг: пользователь представляется как набор ID кластеров; эти ID используются как свойства для кластеризации уже самих пользователей — по полу, по стране и т.п.

Следующий доклад тоже был довольно интересным, Guo et al. про Викификацию Твиттера. Вообще конференция сильно расширила мое представление о круге задач, которыми занимается современная компьютерная лингвистика — методы ладно, но я даже про задачи такие раньше не слышала! Так вот, викификация твиттера — это приписывание сущностям, упомянутым в Твиттере, ссылок на соответствующую страницу Википедии. При этом викифицирование не просто является самоцелью, но и помогает распознавать сущности в тексте и снимать неоднозначность. Например, если в твите упомянут актер, то рядом очень вероятно имя фильма — даже если написано оно с маленькой буквы и без кавычек.

Потом был доклад про выделение точек зрения в интернет-обсуждениях, а последний — про Intention Detection в интернет форумах. Интенции — это когда автор еще только собирается что-то купить. Авторы, Chen et al. тоже предоставили свой dataset в открытый доступ, а саму задачу автор представлял как абсолютно пионерскую. После доклада встал кто-то из аудитории и сказал, что работа очень интересная, спасибо, но вам пора перестать позиционировать ее как такую уж новую — выделением намерений уже давно занимаются в больших компаниях типа Гугла, хотя, возможно, они и не публикуют свои наработки. «Наверное, в компаниях всё rule-based?» — попытался оправдаться докладчик. «О, нет.»

Следующая секция была для меня как-то менее интересна и я отправилась в музей Маргерет Митчел  (don’t tell my supervisor!), чтобы хоть как-то прикоснуться к тому, с чем у меня ассоциировалась Атланта до того, как я сюда приехала. На самом деле, в Атланте есть еще большой музейный центр, посвященный истории города и гражданской войны, но это довольно далеко от места конференции,  и как ни рвалась туда моя туристическая сущность, моя научная совесть ее туда не пустила. А музей Митчелл оказался очень приятным и информативным  местом как раз на одну секцию.

Потом я вернулась в отель и отправилась на Semantics and Syntax — последнюю секцию в основной программе конференции. Последний доклад был как раз про синтаксис, про автоматическое построение грамматики, и откровенно говоря, я не поняла в нем ни единого слова. А первые два показались интересными. В первом, Szarvas et. al, рассказывалось об автоматическом подборе замены для слова в контексте — для многозначных слов некоторые синонимы подходят, а некоторые, из другого семантического ряда, — нет. Раньше для каждого такого слова строили отдельный классификатор, а авторы предложили универсальную модель, которая использует только нелексические свойства — связанные с частотностью и с числом смыслов у этого слова и у его соседей.

Потом Tim Van de Cruys рассказывал про тензорную модель семантической сочетаемости. Нельзя сказать, чтобы я что-то в этом понимала, но после доклада стала понимать все-таки больше, т.к. рассказывал Тим достаточно ясно, с большим количеством картинок. Речь идет, опять же, о поиске латентно-семантических измерений, но не в плоской матрице, а в кубике. Грани кубика — это субъекты, глаголы и дополнения, а в клеточках (в кубических клеточках) стоят частоты — сколько раз эти три слова встретились вместе. Тензорное разложение позволяет упрощать эту кубическую матрицу и находить в ней похожие триплеты; таким образом можно моделировать семантическую близость между простыми предложениями.

После секции другие партисипанты позвали меня в Аквариум. Сама бы я, наверное, не пошла, т.к. уже бывала в аквариумах в других городах. Но этот действительно производит яркое впечатление — там и огромные китовые акулы, и дельфины, и пингвины, и выдры, и лягушки, и потрясающей красоты оранжевые медузы, и великое множество самых разных рыб. Потрясающе, что такой огромный аквариум устроен в Атланте, вдали от моря.

13 июня, workshops, social media, multiword expressions

Основная программа конференции закончилась и начались воркшопы: миниконференции, посвященные определенной узкой теме. Кроме того, параллельно идет конференция-соревнование по семантическому анализу текста.

Поскольку много интересного идет в параллель, я решила сосредоточится на ключевых докладчиках. Сначала пошла на воркшоп по Social Media, где в качестве ключевого гостя выступал Mor Naaman. Показывал разработанную им систему VoxCivitas, которая изначально была сделана для журналистов, чтобы помочь им отслеживать реакцию разные события в Твиттере (feel free to tweet, by the way). Сами события находятся по хэш-тегам и основная работа ведется по группировке и визуализации твитов, а также их измемнения во времени — фактически это моделирование нарратива. Потом Нааман еще делился своими наработками в области отслеживания долгосрочных трендов: про завтрак люди твитят по утрам весь год, а про Рождество круглые сутки, но только в определенное время года. Или, например, они отслеживали «одиночество в сети» — фразы типа «мне так одиноко». Они хорошо кластеризовались на окказициональные и хронические, и окказициональные явно получали больше отклика в социальной сети. Наамана отличает  «индустриальный» взгляд на обработку твитов: например, они не используют sentiment analysis, потому что качество этих технологий еще слишком низкое. В конце лекции Нааман поднял интересный вопрос о том, кому должны принадлежать права на записи в социальных сетях — социальные сети отражают память общества, это своего рода архив впечатлений, но этот архив находится во владении частных компаний.

Потом я отправилась на воркшоп по Multiword Expressions слушать доклад Марты Палмер про light-verb constructions и их аннотировании в PropBank и VerbNet. У нее в лекции было очень много информации на единицу времени, я едва успевала следить. Основная вопрос заключается в том, как совместить автоматическую разметку с сохранением семантики — т.е. не только обнаруживать составные конструкции, но и размечать в них семантические роли. Рассказывала про придуманную у них трехпроходную методику разметки конструкций, которая дает большую степень согласия между аннотаторами — но, несмотря на то, что люди достаточно легко определяют «light» и «heavy» употребления глаголов, различать их автоматически пока еще не научились. Очень мило прошлась, про «этим чудесным тензорным разложениям из distributional semantics», которые не работают на MWE потому, что смысл складывается не только из слов, но и из синтаксических конструкций. В целом, она выступала за гибридные подходы: сочетание глубокого лингвистического анализа и машинного обучения.

Сразу после Палмер шел секционный доклад  Roller et. al. о том, как устранить шумы в разметке композициональности. Т.е. они сначала предлагали пользователям  на Mechanical Turk’е размечать какие составные слова являются композициональными (т.е. их насколько смысл производен от смысла составляющих), а какие нет, а потом использовали разные статистики, чтобы минимизировать шумы и спам.

После этого я пошла на воркшоп по метафорам чтобы послушать лекцию Джона Бардена. Он рассказывал про свой проект по описанию метафор и про правила логический вывода для, которые позволяют вывести из буквального смысла метафоры ее настоящий — переносный — смысл. Правда, я не очень поняла, на какой стадии у него эта работа, к тому же не дослушала доклад до конца, потому что побежала обратно на воркшоп по MWE.

Там выступала Malvina Nissim с докладом на соблазнительную тему «Modelling the internal variability of MWEs». Речь, как оказалось, шла об очень простой вещи: некоторые MWE допускают вариативность (например, одно из слов ставится во множественное число), а некоторые нет. При этом в корпусе встречаются цепочки слов, которые состоят из тех же лемм, что и словосочетание из словаря, но уже утратили идиоматичность  — мне это сложно представить, но, возможно, в итальянском языке такое бывает.  Вопрос в том, как извлечь из корпуса максимум возможных форм (полнота), но при этом избавиться от мусора (точность). Как оказалось, это в большой степени определяется частеречными паттернами (и плохо — статистическими мерами). Т.е. для определенного  паттерна, например Noun Prep Noun, можно посчитать все случаи, когда его компоненты менялись в корпусе — и это даст достаточно высокую точность, хотя предпочтения какого-то конкретного словосочетания при этом не учитываются, т.е. немного (несильно) страдает полнота. Ну и можно делать всякие лингвистические обобщения сравнивая поведение отдельных паттернов — например тех, где существительное употребляется с артиклем и без. Любопытно, но мне все же показалось, что на keynote это не тянет — тем более, сама докладчица призналась, что они только начали работать с MWE.

Потом был перерыв, во время которого развешивали постеры, и презентация двух коротких статей. Первая была от Грема Херста, который сравнивал клишированность двух эпизодов из Улисса. Литературоведы считают что один эпизод «Эмаус» намеренно клиширован для достижения иронического эффекта — вот они и решили посчитать, насколько это соответствует действительности. Посчитали, сколько частотных n-грамм из Google Books того времени встречается в разных эпизодах — и действительно, в одном чаще, чем в других. Все очень просто, но послушать было приятно — Херст выступает очень ясно и энергично.

Затем бригада чехов из Prague Treebank представила работу Uresova et. al. по разметке идиоматических глагольных выражений в параллельном чешско-английском корпусе.  Привели несколько примеров, когда идиоме в чешском соответсвует идиома в английском, но сказали, что таких случаев  меньшинство. Бывает, что чешская идиома переводится английским light verb или просто свободным сочетанием, бывает и наоборот — в английском идиома, а в чешском нет. Что с этим делать, пока не ясно, но очевидно, что это необходимо учитывать в машинном переводе.

Затем была постерная сессия. Изначально в программе было заявлено шесть работ, но до Атланты доехало только четыре: та же Мальвина со списками конкретных частеречных паттернов; пара мексиканцев, которые свернули свой постер раньше, чем я успела к ним подойти; дама из Бразилии, которая научилась автоматически распознавать значения португальской частицы SE, сильно смахивающей на русское «ся»; и ваша покорная слуга с работой под названием «Automatic Detection of Stable Grammatical Features in N-Grams«. Особого ажиотажа вокруг моего постера не было (на воркшопе вообще как-то мало народу, в сравнении с тем, чего я ожидала), но раз шесть я содержание статьи проговорила, и были вопросы.

После воркшопа я пошла к месту кофебрейка, посмотреть, не дают ли там кофе. Кофе, увы, не оказалось. Кормят здесь в целом  неплохо — даже завтрак включен в программу для всех участников — но еду как-то слишком быстро уносят. Зато из большого зала, где расставляли постеры, призывно пахло горячей едой. Так я попала на дорожку по Semantic Text Similarity. Участвовало в ней, судя, по числу постеров, человек тридцать. Интересно, а кто-нибудь занимался этой задачей для русского языка? В постеры я вникать особо не стала, зато поболтала с разными людьми на научные-околонаучные темы, и наконц-то почувствовала себя на настоящей конференции, а не в тылу инопланетян.

Завтра последний день. В Атланте дождь и гроза, и вид с моего пятьдесят первого этажа по-новому прекрасен.

14 июня, events

В последний день проходил воркшоп посвященный эвентам, т.е. в основном «корпусному» взгляду на то, что есть эвенты и как их можно размечать в тексте.  Судя по всему, эта тема вызывает гораздо больше интереса, чем multiword expressions, потому что людей было гораздо больше, человек 40 (к концу поубавилось). Любопытно, что основная программа конференции посвящена сложным математизированным методам полностью автоматического анализа, а воркшопы все больше про пристальное лингвистическое внимание и ручной труд. Открылся воркшоп представлением всех по кругу, что само по себе было немного «embarrassing»: — Я Марта Палмер — Я Джеймс Пустеевски — Я Эдвард Хови — Я Ральф Гришман — Я Лида Пивоварова, я приехала из Хельсинки и привезла постер на ваш воркшоп.

Потом Пустеевски прочел часовую лекцию о том, как он видит логическую структуру эвентов на разных уровнях. Его основная разработка, конечно, TimeML, но в докладе был широкий обзор работ в области вообще — от глагольных предикатов до структуры нарратива. В конце он дошел до метонимических эвентов, которые выражаются существительными: «Поезда не будет до семи часов» означает на самом деле «не будет отправления поезда», т.е. речь идет о событии-отправлении. Мне показалось, что чем дальше, тем больше эвенты теряют объективную природу — что это просто способ смотреть на текст — своего рода эвентуальная грамматика — способ представлять данные, описывая их через совокупность разноуровневых  и по-разному связанных эвентов.

Потом Теруко Митамура начала первую «рабочую секцию», которая заключалась в обсуждении того, что можно и что нельзя аннотировать в тексте: некоторы эвенты выражаются по-простому глагольными предикатами, но есть огромное количество других форм — номинализация, light verbs, идиомы и т.п. Что мы можем аннотировать в тексте и что нет? И кстати, похожие вопросы возникают в практической работе по event extraction — что мы можем извлечь из текста, а что нет? Чего не можем аннотировать, того, вероятно, не можем извлечь.

Потом была постерная секция. Она продолжалась ровно один час, и весь этот час я говорила про свою работу и не успела подойти к остальным участникам. Расспрашивали про систему, про новости как жанр, нашу работу называли «great» и «interesting», хотя непонятно, что это на самом деле значит.

Потом было продолжение общей дискуссии, которую теперь вела Марта Палмер. Речь шла о том, когда эвенты идентичны, а когда нет, когда они связаны определенным отношением, а когда просто следуют друг за другом. Из дискуссии я почерпнула понятие «нарративного контейнера»: сам эвент является таким контейнером, в него может быть вложено несколько эвентов нижнего уровня, при этом они могут быть связаны определенным отношением или просто находится внутри одного контейнера, если конкретное отношение неопределено.

После перерыва дискуссия возобновилась под руководством Эдварда Хови. Он, кстати, сказал, ведь обсуждение будет документировано и по результатам сформулированы какие-то инструкции для будущих аннотаторов. Речь снова шла о том, как представлять эвенты, как их аннотировать.  Эвенты, как и другие языковые единицы, обладают аспектом, модальностью и полярностью, которые тоже как-то надо размечать. Так же Хови поднял интересную тему о сообщениях: иногда мы вообще не интересуемся, что кто-то что-то сказал, иногда сообщение становится дополнительным подтверждением достоверности события, но иногда нам интересно само сообщение как речевой акт.

В общем, я получила большое удовольствие налюдая, как все эти прекрасные люди разбирают предложения типа «The hysteria over rising gas prices has reached fever pitch» пытаясь понять, что здесь является событием, что модификатором, а что аспектом и до какого уровня может дойти истерия в принципе.

That’s it.

Об авторе Лидия Пивоварова

СПбГУ - старший преподаватель, University of Helsinki - PhD student http://philarts.spbu.ru/structure/sub-faculties/itah_phil/teachers/pivovarova
Запись опубликована в рубрике Конференции, Обзоры/Редакционное. Добавьте в закладки постоянную ссылку.

13 комментариев: NAACL: дневник партисипанта

  1. Дмитрий Кан говорит:

    Здесь есть видео некоторых сессий:

    http://techtalks.tv/naacl/2013/

  2. Yauhen говорит:

    Прочел как художественное произведение 😉

    Нашел в интернетах http://nlpers.blogspot.com/2013/06/my-naacl-2013-list.html, может полезным окажется.

  3. Михаил Копотев говорит:

    Лида, супер!
    Все-таки покажи науч. руководителю 😉
    А чо с метафорами? Ты на одном только докладе была?

  4. Аноним говорит:

    Спасибо, очень интересно!

  5. Александр говорит:

    Лидия, спасибо за подробный экскурс … как будто побывал.

  6. А было в какие-то моменты ощущение междусобойчика?

    • О, да. Они часто ссылались на предыдущие НАКЛы, и на работы и целые направления, которые как-будто бы все знают, а я впервые слышу. И еще, когда так много американцев собрано в одно месте, начинаешь чувствовать, что они все-таки люди другой культуры.

  7. Артём Луканин говорит:

    Спасибо за подробный отчёт!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *