CFP: ConCorT 2016

Корпусные технологии

Digital Humanities и современное знание

1416 октября 2016 г.

 Факультет гуманитарных наук НИУ ВШЭ (Нижний Новгород) и Школа лингвистики Факультета гуманитарных наук НИУ ВШЭ (г. Москва) приглашают вас принять участие в Международной научно-практической конференции «Корпусные технологии. Digital Humanities и современное знание».

Сегодня компьютерные и корпусные технологии в исследованиях языка и обучении языкам занимают ведущее место, наряду с традиционными методами анализа. Постоянно создаются новые корпусные ресурсы, новые программные средства для анализа языка: морфологической разметки, синтаксического анализа, транскрипции и транслитерации языков с редкими системами письма и т.д. Область Digital Humanities также сделала рывок вперёд: от простого представления текстов в Интернете специалисты переходят к полноценным системам, позволяющим проследить сюжетные линии произведения, семантические поля, релевантные для анализа произведения, синтаксические особенности текста и т.д.

Именно поэтому необходимы встречи, где специалисты в разных областях компьютерной парадигмы лингвистики могут поделиться своими разработками, идеями и взглядами на развитие своей научной  парадигмы.

Конференция «ConCorT» была впервые проведена в 2013 году и с тех пор стала ежегодной.

 

Цели и задачи конференции:

  • Содействовать распространению корпусных технологий в гуманитарных науках и, в целом, дигитализации и компьютеризации гуманитарного знания
  • Представить результаты применения корпусных технологий в лингвистических исследованиях
  • Объединить экспертное сообщество широкого гуманитарного профиля вокруг новых методологий анализа
  • Привлечь молодых исследователей к данной научной проблематике.

 Предполагается обсуждение следующего круга проблем: 

  1. Тенденции развития гуманитарных наук в век цифровых технологий
  2. Электронные лингвистические ресурсы: корпуса и коллекции текстов, электронные словари и тезаурусы
  3. Корпусные технологии в исследованиях и преподавании гуманитарных дисциплин
  4. Digital Humanities, корпусная поэтика и компаративные исследования
  5. Корпусная лингводидактика

В качестве ключевых докладчиков и ведущих мастер-классов приглашены следующие специалисты:

Е. Протасова (Хельсинкский университет, Финляндия)

Н. Эллис (Мичиганский университет, США)

Э. Гроссман (Иерусалимский университет)

И. Кор Шаин (Университет Прованса, Франция)

Р. Лейбов (Тартуский университет, Эстония)


Рабочие языки конференции: русский и английский

Место проведения – НИУ ВШЭ в Нижнем Новгороде

Даты проведения 28-29 октября 2016 г.

  Читать далее

Рубрика: Конференции | Добавить комментарий

дорожка по определению русскоязычного парафраза

Приглашаем к участию в дорожке по определению парафраза для русского
языка. Дорожка проводится на основе данных корпуса ParaPhraser
(http://www.paraphraser.ru/). ParaPhraser – это общедоступный корпус
пар русских предложений, вручную размеченных как парафраз, частичный
парафраз или непарафраз. Работа по созданию и анализу корпуса
проводилась в рамках проекта по исследованию структуры новостных
текстов (СПбГУ, Е.В. Ягунова, Е.В. Проноза и др). Размер корпуса в
настоящий момент – 7000 пар, эти данные будут использоваться как
обучающее множество. Тестовое множество накапливается в настоящее
время с помощью краудсорсинга, его предполагаемый размер – около 1000
пар предложений.

Дорожка будет организована согласно стандартной процедуре: участвующие
системы получают на вход пару предложений и возвращают ее класс.
Участникам будет предложено два типа заданий: классификация на два
класса (парафраз – непарафраз) и на три класса (парафраз – частичный
парафраз – непарафраз). Участники могут участвовать в “стандартных”
прогонах, для которых система обучается только на корпусе ParaPhraser,
и “нестандартных”, в которых можно использовать любые другие данные.
“Стандартные” и “нестандартные” прогоны оцениваются отдельно.

Более подробное описание заданий, данных и методов оценки можно найти
по ссылке: http://www.paraphraser.ru/download/get?file_id=2

Предварительное расписание дорожки:

Июль 2016: первое информационное письмо, обучающие данные доступны на
странице скачивания корпуса
1 сентября 2016: второе информационное письмо
1 октября 2016: публикация тестовых данных
10 октября 2016: крайний срок подачи ответов
12 октября 2016: публикация результатов
11-12 ноября 2016: семинар с докладами участников и обсуждением
результатов (в рамках конференции AINL, Санкт-Петербург,
http://ainlconf.ru/)
конец декабря 2016: крайний срок подачи полных статей (планируется
публикация сборника с попаданием в международные индексы, детали
уточняются)

Организаторы

Лидия Пивоварова, Университет Хельсинки
Екатерина Проноза, СПбГУ
Елена Ягунова, СПбГУ

Контакты

russian.paraphrase[at]gmail.com

Рубрика: Конференции, Ресурсы/Софт | Добавить комментарий

SimVerb-3500 : a new evaluation resource for verb pair similarity

We are very happy to announce the release of SimVerb-3500 : a new
evaluation resource for verb pair similarity. SimVerb-3500 consists of 3500
verb pairs, each is rated by 10 human judges for similarity, with scores on
a 1-10 scale. The annotation guidelines are adopted from SimLex-999 so that
the judges are guided to judge similarity rather than association.

SimVerb-3500 is a high coverage resource: it covers all normed verb types
from the USF free-association database, and consists of at least three verb
type examples from every VerbNet class. It is divided into train,
development and test sets to facilitate principled machine learning
research.

The resource can be downloaded from:

http://people.ds.cam.ac.uk/dsg40/simverb.html

A paper describing the dataset and analysing the performance of various
state-of-the-art vector space models in predicting its scores has recently
been accepted to EMNLP 2016:

*SimVerb-3500: A Large-Scale Evaluation Set of Verb Similarity*
Daniela Gerz, Ivan Vuli?, Felix Hill, Roi Reichart and Anna Korhonen.
EMNLP 2016. [pdf
<http://people.ds.cam.ac.uk/dsg40/paper/simverb/simverb-3500.pdf>][bibtex
<http://people.ds.cam.ac.uk/dsg40/paper/simverb/simverb-bibtex.txt>]

Рубрика: Ресурсы/Софт | Добавить комментарий

Information Extraction from Microblogs Posted during Disasters

Call for Participation

FIRE 2016 Microblog Track
To be organized at FIRE 2016
8 – 10 December, Indian Statistical Institute, Kolkata

http://fire.irsi.res.in/fire/2016/home

——————————————————————————-

Information Extraction from Microblogs Posted during Disasters

https://sites.google.com/site/fire2016microblogtrack/information-extraction-from-microblogs-posted-during-disasters

Track description

User­-generated content in microblogging sites like Twitter is known to be important sources of real­time information on various events, including disaster events like floods, earthquakes, and terrorist attacks. In this track, our aim is to develop IR methodologies for extracting important information from microblogs posted during disasters.

A large set of microblogs (tweets) posted during a recent disaster event will be made available, along with a set of topics (in TREC format). Each ‘topic’ will identify a broad information need during a disaster, such as – what resources are needed by the population in the disaster­ affected area, what resources are available, what resources are required / available in which geographical region, and so on. Specifically, each topic will contain a title, a brief description, and a more detailed narrative on what type of tweets will be considered relevant to the topic. The participants are required to develop methodologies for extracting tweets that are relevant to each topic with high precision (i.e., ideally, only the relevant tweets should be identified) as well as high recall (i.e., ideally, all relevant tweets should be identified).
This is essentially an ad­hoc search task, where the main challenges are:
(i) dealing with the noisy nature of microblogs which are very small (at most 140 characters) and often written informally, using abbreviations, colloquial terms, etc, and
(ii) identifying specific keywords relevant to each broad topic. Note that, each individual microblog contains only a few words, and might not contain most of the specific keywords even though the tweet is relevant to a topic.

Data

The data will contain:

  1. Around 50,000 microblogs (tweets) from Twitter, that were posted during the Nepal earthquake in April 2015. Tweet ids along with a script to download the tweets will be provided to the participants.
  2. A set of 5 – 8 topics in TREC format, each containing a title, a brief description, and a more detailed narrative on what type of tweets will be considered relevant to the topic.

Evaluation plan

Since the aim of this track is to extract a set of tweets that are relevant to each topic, set­-based evaluation metrics like precision, recall, and F­-score will be used. The gold­ standard, against which the set of tweets identified by the participants will be matched, will be generated by a “manual run” where human volunteers (assessors) will be given the same set of tweets and topics, and asked to identify all possible relevant tweets using a search engine (Indri).

Читать далее

Рубрика: Конференции, Ресурсы/Софт | Добавить комментарий

вышло введение в компьютерную лингвистику на русском языке

Копирую из рассылки:
Уважаемые коллеги!
Вчера вышла наша книжка, которую мы готовили два года. “Прикладная и компьютерная лингвистика” —
Мы хотели рассказать о современных технологиях прикладной лингвистики простым языком. Надеюсь, это получилось, хотя, конечно, будем рады любым замечаниям.
Книга затевалась как подарок А.С. Герду к 80-летию – которое сегодня! Но он очень не любил поздравления, и вот, смог уклониться от чествований. 2 мая 2016 года он умер, не выдержав нервных перегрузок последних месяцев.
Но книжка вышла, и два последних абзаца введения рассказывают про Герда — мы не стали в них ничего менять, но только добавили его фотографию. При его жизни нельзя было фотографию добавить, он не одобрил бы.
Все авторы закончили нашу кафедру матлингвистики СПбГУ. Часть авторов работают в серьезных IT компаниях. А авторы-преподаватели тоже в основном участвуют в разных проектах по темам своих глав:

Читать далее

Рубрика: Книги | Добавить комментарий

хакатон в Москве

Хакатон по журналистике данных дает уникальную возможность научиться создавать медиапроекты нового уровня, соединяющие технологии анализа данных и журналистский креатив.
Организаторы: Высшая школа экономики, Аналитический центр при Правительстве РФ, SocialDataHub, АНО “Информационная культура”.

Два ближайших выходных пройдут в интенсивной командной работе. Вас будут ждать очень разные и необычные исследовательские задачи:
– как сделать медицину понятной? Визуализация официальных документов Министерства здравоохранения (курирует Минздрав РФ);
– ДЕНЕГНЕТ: докажите, есть ли в стране финансовый кризис? (курирует аналитический проект ГосЗатраты , https://clearspending.ru/);
– как нарисовать бюджет? Открытые данные единого портала бюджетной системы budget.gov.ru и Минфина России.

Участники могут выбрать и свободную тему, связанную с открытыми данными России. Эти темы будут оцениваться в номинациях “Лучший дизайн” и “Лучший дата-журналист”

Вас ждет знакомство с открытыми данными, выступления профильных специалистов, увлекательный поиск данных под руководством опытных менторов и возможность на собственном опыте познакомиться с тонкостями работы системы государственного управления РФ.

Результатом работы может быть журналистский материал, мультимедийная публикация на платформе типа Tilda (https://tilda.cc/ru/ ), визуализация, исследование.
Завершится хакатон публичным представлением проектов, по результатам которого жюри выберет победителей.

Приглашаем к  участию сотрудников СМИ, программистов, дизайнеров, технических и творческих специалистов, студентов гуманитарных и технических специальностей и всех, кто хочет понять открытые данные России.
Подать заявку можно командой и индивидуально.

Дипломы победителей и участников хакатона будут учитываться в конкурсе портфолио при поступлении на магистерские программы «Журналистика данных», «Дизайн», «Коммуникационный дизайн» НИУ ВШЭ осенью текущего года.

Победители в номинации, представленной Минздравом России, получат благодарственные письма Министра здравоохранения В.И. Скворцовой.

Хакатон пройдет 25-26 июня в “Точке кипения” Агентства стратегических инициатив (Москва, Малый Конюшковский переулок, д. 2).
Полная информация о хакатоне: https://leader-id.ru/event/2331/
Зарегистрироваться можно здесь: https://leader-id.ru/registration/

Со всеми вопросами по открытым данным и по участию можно обращаться по любому из контактов:

Елена Никитина,
эксперт по Открытым данным
Аналитического центра при Правительстве РФ
e.nikitina[собачка]ac.gov.ru
nike64[собачка]gmail.com

Рубрика: Конференции, Лекции/Семинары | Добавить комментарий

хакатон в эти выходные с возможностью выиграть полмиллиона

Budget Stories – это двухдневный конкурс для журналистов и программистов, организованный по инициативе Министерства финансов РФ.
Задача – создать мобильное или веб-приложение, статью или инфографику на основе данных Министерства финансов РФ, Федерального казначейства, ФНС и других государственных органов России.
Полный список источников данных можно увидеть по ссылке: www.budgetstories.ru.

Работа будет проходить под руководством менторов, среди которых специалисты по открытым данным в России и практикующие журналисты:
– Майя Стравинская, креативный директор студии «Рамблер Инфографика», журналист и медиаменеджер;
– Иван Бегтин, директор АНО «Информационная культура», инициатор создания «Открытого правительства», главный специалист по открытым данным в России;
– Юрий Синодов, основатель и издатель Roem.ru, интернет-журналист;
– Роман Романюк, главный редактор журнала «Эксперт Северо-Запад»;
– Ирины Радченко, главный координатор российского отделения Фонда Открытых знаний;
– Михаил Карягин, ведущий эксперт проекта «Инфометр».

Авторы лучшего проекта хакатона получат денежный приз в размере 30.000 руб.,
обладатели второго места – 20.000 руб.,
а вся тройка лидеров – редкие книги по инфографике.

Всем участникам Budget Stories будет оказана поддержка для подачи своего медиапроекта на конкурс «BudgetApps» http://budgetapps.ru/ (окончание в сентябре 2016 г.) с призовым фондом 500.000 руб.

Со всеми вопросами по открытым финансовым и не только данным и по участию можно обращаться по любому из контактов:
Елена Никитина
nike64[цобачка]gmail.com

Рубрика: Конференции, Лекции/Семинары | Добавить комментарий

AINL: приглашение к участию

http://ainlconf.ru/

5-я конференция по искусственному интеллекту и обработке естественного языка AINL пройдёт 10-12 ноября 2016 в Санкт-Петербурге.

Мы приглашаем к участию всех заинтересованных в разработке интеллектуальных технологий: студентов, учёных, представителей IT-компаний. Целью конференции является создание среды для общения между представителями академии и индустрии, поэтому формат совмещает черты промышленной выставки и научной конференции.

Основные направления конференции:
Обработка естественного языка
Искусственный интеллект
Информационный поиск
Социальные медиа и анализ социальных сетей
Генерация и распознавание текста, Обработка речи
Диалоговые системы и человекомашинные интерфейсы
Связанные данные (Linked data) и Семантический веб (Semantic Web)
Анализ контекста, Большие данные (Big Data), Анализ данных
Установление авторства, нахождение плагиата
Робототехника

Мы принимаем полнотекстовые (от 6 до 12 страниц) и короткие (от 1 до 4 страниц) доклады. В полнотекстовых докладах должны быть описаны оригинальные, завершённые и неопубликованные ранее работы. Принятые доклады подаются на IEEE Xplore и индексируются Scopus. Короткие доклады подойдут для текущих работ и могут быть представлены в виде постера или демо.

В рамках конференции также проводится индустриальная секция, для участия в которой необходимо подать заявку (1 страницу) через систему Easy Chair.

Даты

Срок подачи полнотекстовых и коротких статей: 15 сентября 2016
Решение о публикации: 15 октября 2016
Срок подачи окончательных версий: 26 октября 2016
Срок подачи индустриальных заявок: 26 октября 2016
Решение о приёме индустриальных заявок: 1 ноября 2016
Конференция: 10-12 ноября 2016

Полный анонс на английском языке см. на нашем сайте: http://ainlconf.ru/cfp
Сайт конференции: ainlconf.ru

Рубрика: Конференции | Добавить комментарий

очень сильная в этом году программа на руссире

10th Russian Summer School in Information Retrieval (RuSSIR 2016)
August 22-26, 2016, Saratov, Russia, http://romip.ru/russir2016/

Application deadline: June 25, 2016

The 10th Russian Summer School in Information Retrieval (RuSSIR 2016)
will be held on August 22-26, 2016 in Saratov, Russia. The school is co-
organized by the Saratov National Research State University (http://sgu.ru/en/)
and the Russian Information Retrieval Evaluation Seminar
(ROMIP, http://romip.ru/en/. The RuSSIR-2016 will have a special focus
on semantic search, construction of knowledge repositories (dictionaries,
thesauri, ontologies, semantic networks, knowledge graphs, etc.) and their
applications for the Information Retrieval.

The missions of the RuSSIR school series are to enable students to learn
about modern problems and methods in information retrieval and related
disciplines; to stimulate scientific research and collaboration in the
field; and to create an environment for informal contacts between
scientists, students and industry professionals.

RuSSIR 2016 will offer the following courses:
* Gianluca Demartini (University of Sheffield, UK): Crowdsourcing and
Human Computation for Semantic Search
* Ingmar Weber (Qatar Computing Research Institute, Qatar): Computational
Social Science: Theories, Methods and Data
* Alexander Kotov (Wayne State University, USA): Knowledge Graph Entity
Representation and Retrieval
* Krisztian Balog (University of Stavanger, Norway): Entity Linking
* Fabian Suchanek (Telecom ParisTech University, France): Ontological
Information Extraction
* Mihai Lupu (Vienna University of Technology, Austria): Domain Specific
Semantic Search
* Shlomo Berkovsky (CSIRO, Australia): Social Personalization and
Recommender Systems
* Heng Ji (Rensselaer Polytechnic Institute, USA): Knowledge Base
Population
* Ilya Markov (University of Amsterdam, Netherlands): Click Models for
Web Search
* Boris Mirkin (NRU HSE, Russia & University of London, UK): Model- and
experiment-driven recommendations for haunting issues in clustering
Читать далее

Рубрика: Курсы/Образование/Постдоки | Добавить комментарий

Коллокация как начальная точка грамматического и лексического процессов

17 июня 2016 года, в пятницу, в 15.00 в отделе теории грамматики ИЛИ РАН (Тучков пер., д. 9, к. 306–308)  состоится доклад М. В. Копотева (Хельсинкский университет, Финляндия)

«Коллокация как начальная точка грамматического и лексического процессов»

Аннотация. Представление о том, что «слова характеризуются тем, что их окружает» [Firth 1957], имеет долгую историю. В последние годы анализ больших массивов данных и возможность экспериментально определять сочетаемостные предпочтения позволили выявить единицы, занимающие промежуточное положение между многокомпонентной лексемой (фразеологизмом) и словосочетанием. Одним из результатов этого интенсивного изучения стала такая трактовка статистических [Evert, 2008], или эмпирических [Nesselhauf, 2005], коллокаций, при которой коллокации понимаются шире, чем языковые единицы, имеющие некомпозициональное значение [Мельчук 1960; Mel’čuk 1995; Борисова 1995; Воейкова 2005, Кустова 2008в и др.]. В докладе под коллокацией подразумевается «неслучайное сочетание двух и более лексических единиц» [Ягунова, Пивоварова 2011: 575, см. еще Stubbs 2005; Sinclair & Mauranen 2006 и др.]. Будет показано, что устойчивая воспроизводимость коллокаций формирует набор признаков, который включает в себя частотные характеристики совместной встречаемости, а также конструкционные ограничения и ограничения конкретной лексемы, проницаемость и др. Коллокации часто являются “свободными” (т.е. устроенными композиционально) единицами, но именно они служат начальной точкой языкового обобщения и именно их устойчивое воспроизведение приводит к появлению лексического фразеологизма, синтаксической конструкции или морфологического правила.

 

 

 

 

 

 

Приглашаются желающие

Рубрика: Лекции/Семинары | 3 комментария