EACL 2017

Всю предыдущую неделю я провела в Валенсии, на конференции EACL. Очень насыщенная программа, приятная атмосфера и неожиданно много знакомых лиц. Много зелени, деревья, усыпанные диковинными цветами всех оттенков розового, пальмы, выстроившиеся вдоль длинных бульваров, усыпанные плодами апельсиновые деревья, диковинные новостройки на фоне голубого неба с пробегающими легкими облачками. И где-то там еще центр с готическими соборами, артнувошным рынком и томными вечерами, парк, разбитый в высохшем русле реки, еще более диковинные и еще более новые творения архитектора Калатравы, а еще дальше — море и пляжи, которые мне, например, довелось увидеть только из окошка самолета.

Так вот, конференция. Первые два дня были заняты воркшопами и тюториалами. В первый день я отправилась на тюториал по специализации словарных векторных пространств. Речь там шла о том, как инкорпорировать лингвистическую информацию и базы знаний в семантические вектора (embeddings), которые обычно конструируют универсально — одни и те же на все задачи — и fully-unsupervised, как будто никаких ресурсов в природе не существует. Не сказать, чтобы тюториал был очень оживленным — никакого модного нынче интерактива — зато весьма насыщенным информацией. Мне кажется, что вполне можно разобраться по слайдам, а внутри слайдов самое полезное — шестнадцать страниц ссылок на литературу в конце. Если шестнадцать страниц для вас много, начните со статьи Faruqui et. all про ретрофиттинг. На тюториале нам рассказывали, что проще всего обучить эмбединги как обычно, неспециализированно, а потом уже тюнинговать их под задачу, для чего ретрофиттинг стал уже стандартным методом, хоть и опубликован в 2015-м году.

В эти дни помимо кофе-брейков полагался еще и «picnic-lunch», то есть пакет с яблоком, шоколадкой, сандвичем и бутылкой воды. Это был самый дорогой бутерброд в моей жизни (сто евро — цена тюториала), и был он довольно черствым. Среди участников ходили слухи, что когда начнется основная конференция, то вместо бутербродов появится настоящий обед. Забегая вперед скажу, что слухи не подтвердились. Бутерброды действительно исчезли, но взамен ничего не появилось! Впрочем, на кофе-брейки давали круассаны, пончики с глазурью, а также свежевыжатый апельсиновый сок и местное веганское молоко — орчаду, так что партисипанты особого недовольства не высказывали, ну разве что качеством кофе (ну как такое можно разливать в Испании? где же ваше мавританское наследие?).

Но отвлечемся на время от кулинарного аспекта и вернемся к научной программе. В программе второй половины меня ничто особенно не интересовало, поэтому я пошла на те воркшопы, где были приглашенные докладчики. Сначала пошла на воркшоп по социальным сетям, где Фамарь Солорио рассказывала о своих работах по code-switching. Она говорила, что смешение языков — это нормально, очень много людей именно так и разговаривают, и когда они начинают общаться в соцсетях, то приносят туда такое же смешение языков. Эти данные обычно ускользают от внимания исследователей, а это означает, с практической точки зрения, что изрядная доля того, что пишут в соцсетях просто выкидывается или рассматривается к шум. А с теоретической точки зрения соцсети — очень хороший материал для психолингвистических исследований, чтобы изучать билингвов и как они переключаются между языками. Там было много интересного, например, про то, как они обучали частеречную разметку на смешанных данных. И про дорожки по определению языка на уровне слов (раз и два). Упоминала, что ей можно писать, если возникают вопросы по поводу этих дорожек.

Потом я отправилась на воркшоп по когнитивным моделям, где выступала Ракель Фернандес с рассказом о своих экспериментах на корпусе общения совсем маленьких детей с родителями — корпус там тоже совсем маленький, по понятным причинам, но все равно очень интересно. Ее основная мысль состояла в том, что надо смотреть не только на детскую речь, но и на ответы родителей, потому что освоение языка осуществляется во взаимодействии. В частности, они меряли, сколько бывает совпадений между репликами ребенка и взрослого — очень много, гораздо больше, чем в обычном диалоге. Взрослые часто повторяют реплику ребенка, но исправляют языковые ошибки, иногда даже бессознательно: «You are good to cooking. — I am good at cooking?». И за счет этого ребенок учится, получая только положительную обратную связь.

Вообще, судя по отзывам, на этом воркшопе было много интересного. Доклад Андреса Согарда про пингвинов произвел сильное впечатление на публику, но более детальных сведений о нем в редакцию не поступало. А вот что пишет Анастасия Лопухина (НИУ ВШЭ), которая на этом воркшопе провела весь день и сама там выступала:

Я побывала только на своем воркшопе (CMCL) и на планарном докладе Сергея Шарова, так что про весь EACL рассуждать не могу. Скажу о том, что видела. Научная составляющая хороша — много народа с разным бэкграундом, которые слушали и советовали. И устные, и постерные доклады на нашем воркшопе были классными, а постеры понравились даже больше — больше разнообразия тем. Сама постерная часть мне показалась не очень продуманной: поверхности для постеров были расположены гармошкой, поэтому соседям приходилось либо рассказывать по очереди, либо как-то делить маленькое пространство и толкаться.

Самым запоминающимся оказался постер “He’s Pregnant”: Simulating the Confusing Case of Gender Pronoun Errors in L2 English, где автор объясняла, почему испанцы, изучающие английский, часто путают местоимения he и she.

Кроме того, в этот же день (или в следующий?) состоялась лекции Руслана Миткова про анафору и кореференцию — в программе я ее не смогла найти, там слишком много всего, зато имеется свидельство Марии Степановой (ABBYY):

Он проверял, насколько анафора и кореференция улучшает работу NLP приложений (спойлер: «не улучшает»), насколько хорошо должна разрешаться анафора, чтобы улучшения стали значимыми. Кроме того, проверял, насколько воспроизводимы заявленные результаты у систем разрешения анафоры, у него со студентами не удалось воспроизвести хорошие результаты.

Кстати, если кто-то из читателей был на конференции и хочет поделиться впечатлениями, можно это сделать через форму  или тут в комментариях. Вообще, если вы участвуете в каких-то научных мероприятиях и хотите рассказать о них — пишите к нам на матлингву! Растекаться мысью по древу необязательно, редакция принимает публикации любых жанров.

А с постерами там действительно было как-то странно, в первые два дня они шли непрерывно, все время кто-то что-то вешал или, наоборот, снимал.

Вечер первого дня я провела в компании соавторов готовя презентацию, больше рассказывать особенно нечего. Ну кроме того, что места обитания участников были растянуты вдоль проспекта, который ведет от дворца конгрессов к центру города, и за время конференции я неоднократно прошлась по нему в обоих направлениях, особенно в обратном, поскольку вечерняя жизнь протекала в основном в центре, а жила я в двух минутах от места конференции. Еженощные променады, зато выход из дома за пять минут до начала секции.

На второй день был наш воркшоп по балто-славянскому NLP. Очень я довольна этим воркшопом, очень живо и дружелюбно все происходило, и народу было даже больше, чем ожидалось. Ключевым докладчиком выступил вышеупомянутый Сергей Шаров (получился прекрасный обзор NLP для славянских языков — А.Л.).  Кроме того, в этой же секции выступали две мои соавторки. Картинки кликабеьлны и ведут на соответствующие статьи (но излагали они гораздо лучше, чем я фотографировала):

А гвоздем программы было, конечно, представление новой дорожки по извлечению именованных сущностей для славянских языков.  Данные и результаты выложены у нас на сайте. К сожалению, времени было мало и ответы подало гораздо меньше команд, чем тех, кто изначально изъявлял интерес к дорожке. Но мы решили теперь сделать дорожку открытой — если кто-то проведет эксперименты с этими данными (все задания делать не обязательно! можно что-то одно и не для всех языков), то мы их тоже добавим в таблицу. Ну и дальше хотим повторять дорожку, хотя пока не решили когда и как, и будем рады, если кто-то захочет поучаствовать в организации. Кстати, в ближайшее время состоятся выборы в SIGSLAV — и хорошо бы действительно к продвижению славянского NLP подключились новые люди.

Вечером все BSNLP отправилось социализироваться в один из баров в центре города. Почему-то так вышло, что общалась я там в основном с носителями русского языка (да и в следующие дни общалась с ними не меньше). Про то, как у нас прямо со стола  украли очки, я, пожалуй, рассказывать не буду, слишком длинно. Очки были копеечные, зато море впечатлений. Меня в этой истории больше всего порадовал полицейский-блондин, который улыбнулся и сказал «This is Spain». Потом мы еще долго гуляли по ночному городу, так что мне наконец-то удалось увидеть кое-что из средневекового цента, а кроме того, я узнала, что такое чурос.

Утро следующего дня началось с официального открытия конференции, где всех порадовало выступление Паоло Россо, который сказал, что когда он начинал работать над конференцией, у него еще были волосы на голове (и я его понимаю), и попросил собравшихся не опаздывать к банкету.

А затем выступил первый приглашенный докладчик Девид Блай — тот самый, который придумал тематические модели, поработал почти во всех ведущих американских университетах и имеет 18 тысяч цитирований на гугл-сколар. Лектор он изумительный. Я наконец-то поняла, почему эти модели работают: потому что есть ограничение, чтобы в каждом документе было немного тем, а в каждой теме немного слов — и за счет баланса между этими ограничениями находится наиболее экономная модель, та, которая лучше всего описывает данные. Но доклад его был не про это, а про модели читателей — как ввести модель еще один параметр, который описывает текст через то, кто его читает. В современном мире кликов и цитирований можно найти много применений такой модели, но Блай приводил интересный пример исследования — причем не своего — где по читательским формулярам восстанавливали круг тем, которые интересовали исторических личностей. В конце ему, конечно, задали вопрос про нейросети, он сказал, что про нейросети его спрашивают все чаще и чаще, и в общем и целом предсказал сингулярность — нейросети будут использоваться в отдельных частях модели чтобы предсказывать распределения.

После лекции мне пришло сообщение от соавторов, что они все проспали и идут в аквариум, к рыбкам. Но я осталась непреклонна и пошла на следующую секцию. Программа была очень  интенсивной — на полную статью дается 15 минут плюс 5 минут на вопросы и в одну секцию влезало пять выступлений. Сперва я пошла на информационный поиск и извлечение информации. Там меня заинтересовало две статьи. Одна Das et al. про то, как совмещать логический вывод (об отношениях между сущностями в тексте) с рекурентными сетями, вторая Stanovsky et al. примерно про то же самое, но на материале побочных эффектов от лекарств.

После перерыва я отправилась на секцию про Segmentation и там мне очень понравился доклад Bergmanis & Goldwater о разбиении слов на морфемы. Основное отличие их метода в том, что получаются именно морфемы, а не просто сегменты — т.е. слова типа stopping интерпретируются как stop+ing. И это unsupervised — там сравниваются вероятности разных разбиение и максимизируется их правдоподобие.

Потом была сессия коротких статей — там вообще давали десять минут на выступление, только докладчик поздоровается, а ему уже машут табличкой, что пора заканчивать. Но расписание все соблюдалось идеально, просто поразительно.

Я была на секции по семантике, там мне запомнилось интересный доклад Boleda et al. о различении концептов и инстансов в векторном пространстве. Под концептами в данном случае имелись в виду слова их обозначающие — например, «музыкант» или «политик», и они смотрели, как векторы для них отличаются от векторов для конкретных представителей, таких как «Бетховен» или «Ангела Меркель». Выводы были сделаны такие, что одно от другого отличить можно, но четкого единообразия нет, нет удается найти такую операцию в векторном пространстве, которая бы любой инстанс переводила в его концепт — потому что у них все-таки разная дистрибуция и не во всех контекстах они взаимозаменяемы. Но ясно, что это не единственный возможный способ представления концептов.

Потом я решила передохнуть от семантики и перешла в соседнюю аудиторию, где представляли статью Zamani & Schwartz о том, как предсказывать экономические показатели на основе твиттера. Там речь шла про общество в целом, а не про конкретные события, и вывод был сделан такое, что когда что-то происходит в экономике в определенном месте (кризис, общее подорожание), это заметно по твитам из этой локации.

После этого была постерная секция, точнее, ее первая половина, потому что секция проходила в два дня. Там представляли не только короткие, но и полные статьи, но я к этому моменту уже перегрузилась наукой поэтому особо ничего не смотрела — только демо IBM’овской системы мониторинга новостей. Коварная публика попросила поискать там что-нибудь про Брексит, система ушла собирать новости по теме и до конца сессии обратно не вернулась. Между тем наш респондент, выступивший под псевдонимом Пятачок, отметил, что именно постерная сессия ему понравилась больше всего, а бОльшая часть докладов показалась одинаковой.

Постерная секция плавно перетекла в приветственный коктейль, где давали вино и много-много маленьких закусок-тапасов. Натапасившись вволю мы с носителями русского языка отправились осматривать творения архитектора Калатравы в ночном освещении. Во истину инопланетное зрелище.

Следующий день начался снова с приглашенного докладчика — на этот раз выступала Деви Парих и от ее доклада у меня было стойкое ощущение, что будущее уже наступило. Например, она показывала интерфейс, в котором компьютер отвечал на вопросы по картинке «- Кто нарисован на картинке? — Человек. — Что у человека в ухе. — Банан.» Это называется visual question answering, целое направление исследований, и датасеты у них есть, и дорожки проводятся. В основе простая идея, что из картинок и текста учиться проще, чем из чего-то одного, в жизни люди так и учатся. Вторая часть доклада была про то, как переходить на более высокие уровни абстракции и логического вывода при анализе изображений.

После этого я отправилась слушать статьи, опубликованные в TACL  — это такое гибридное издание, рецензируют как в журнале, но потом представляют на конференциях. Там было четыре статьи, все довольно интересные. Первая Osborne et al. была опять же про то, как совместить знания с дистрибутивными моделями, так конкретный метод предлагается, основанный на canonical correlation analysis. Потом было две статьи про синтаксис, одна, Linzen et al., мне понравилась методологически, там проверялось как хорошо LSTM предсказывает число глагола, и проверялось специально на сложных случаях, когда между подлежащим и гаголом есть существительные с другого числа.

А последняя статья в этой секции была про автоматическую разметку каузальных конструкций (Dunietz et al.) средствами Information Extraction. Я поинтересовалась, что докладчик думает о самом понятии «конструкция» и скоро ли будет разработан конструкционный парсер. Докладчик ответил, что это возможно, но пока стоит начать с простых задач.

Потом я было две подряд секции про эмбеддинги, из них мне наиболее полезной показалась статья Pilehvar & Collier, опять же про использования баз знаний, на сей раз для того, чтобы достраивать эмбеддинги для редких слов. И еще был любопытный доклад Sanchez & Riedel, в котором сравнивались датасеты для определения гиперонимов и делался вывод, что не все датасеты одинаково полезны,и вообще нормальный только один (но я что-то не разобралась, где его берут).

Потом опять были постеры, там меня больше всего заинтересовала статья Östling  & Tiedemann, которую представлял профессор из нашего университета Йорг Тиедеманн, про то как строить эмбеддинги — и языковые модели — для разных языков. В результате получаются модели, в которых можно подкручивать пропорции того или иного языка — например, вычитать французский из английского, или находить пропорцию английского и староанглийского, которая лучше всего соответствует Библии короля Якова. И, видимо, для построения этимологических моделей как-то можно использовать.

После постерной сессии всех партисипантов посадили в автобусы и повезли в загородное поместье на банкет. Такие поместья строили те, кого в Испании называли «индейцами» — это те, кто разбогатели в Латинской Америке, а потом вернулись на родину, привезя с собой пальмы, помидоры и картошку, и обустроив роскошные виллы по собственному вкусу. Место действительно очень красивое — жаль, у меня ни одной фотографии нет. Изумительный сад, разгороженный белыми стенами на несколько маленьких двориков, где нам снова давали тапас, и огромная зала, где нас рассадили за круглые столы и потчевали местными кушаньями. Мне все показалось очень вкусным, но некоторые участники роптали на десерт, а 40% опрошенных нами респондентов (два из пяти) отметили паэлью с кроликом как главное разочарование конференции. Закончился этот вечер фейрверком, в конце которого в небе засияли огненные буквы EACL2017.

Следующий — заключительный — день начался с выступления Хинриха Шютце с интересной мотивировочной частью и неожиданными выводами. Мотивировка была такова, что слова — это не самые лучшие смысловые единицы и, вероятное, поэтому дистрибутивные модели не всегда оптимальны и хорошо бы найти другие, более осмысленные единицы для построения эмбеддингов. А вывод — точнее предложение — было вместо слов использовать n-граммы на символах, разбить текст в произвольных местах, сделать так несколько раз и на этих кусочках обучать эмбеддинги. Эта модель продвигалась и в других докладах Шютце на этой конференции, любопытно, но я так и не поняла, почему это хорошо.

А в следующей секции наконец пришла очередь и моего доклада. Я представляла нашу с соавторами статью про то, как использовать имена в тексте для группировки новостного потока. К этому моменту половина участников уже уехала, а в прочие уже подустали от науки, так что особого энтузиазма мое выступление не вызвало. Но я видела, как кто-то фотографировал ссылку на страничку с ресурсами, будем надеяться, все было не зря.

Потом в программе был обозначен бизнес-митинг, который мы провели с бутылкой вина на газоне перед залом конгресса, а затем представляли лучшие статьи — на такой большой конференции их было сразу четыре. Меня больше всего заинтересовала статья Shimaoka et al. про типизацию именованных сущностей — в ней показывалось, что лучше всего работает сочетание машинного обучения с rule-based методами. Так же наш корреспондент из Мюнхена сообщает, что в программе был полезный доклад Yaghoobzadeh & Schütze.

Вот более-менее и все. Если говорить в самых-самых общих чертах, то сквозной темой конференции для меня стал вопрос о том, как совместить новейшие достижения машинного обучения с правилами и знаниями. Очень много было докладов, так или иначе к этой теме подступающих.

Об авторе Лидия Пивоварова

СПбГУ - старший преподаватель, University of Helsinki - PhD student http://philarts.spbu.ru/structure/sub-faculties/itah_phil/teachers/pivovarova
Запись опубликована в рубрике Обзоры/Редакционное. Добавьте в закладки постоянную ссылку.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *