Information Extraction from Microblogs Posted during Disasters

Call for Participation

FIRE 2016 Microblog Track
To be organized at FIRE 2016
8 — 10 December, Indian Statistical Institute, Kolkata

http://fire.irsi.res.in/fire/2016/home

——————————————————————————-

Information Extraction from Microblogs Posted during Disasters

https://sites.google.com/site/fire2016microblogtrack/information-extraction-from-microblogs-posted-during-disasters

Track description

User­-generated content in microblogging sites like Twitter is known to be important sources of real­time information on various events, including disaster events like floods, earthquakes, and terrorist attacks. In this track, our aim is to develop IR methodologies for extracting important information from microblogs posted during disasters.

A large set of microblogs (tweets) posted during a recent disaster event will be made available, along with a set of topics (in TREC format). Each ‘topic’ will identify a broad information need during a disaster, such as – what resources are needed by the population in the disaster­ affected area, what resources are available, what resources are required / available in which geographical region, and so on. Specifically, each topic will contain a title, a brief description, and a more detailed narrative on what type of tweets will be considered relevant to the topic. The participants are required to develop methodologies for extracting tweets that are relevant to each topic with high precision (i.e., ideally, only the relevant tweets should be identified) as well as high recall (i.e., ideally, all relevant tweets should be identified).
This is essentially an ad­hoc search task, where the main challenges are:
(i) dealing with the noisy nature of microblogs which are very small (at most 140 characters) and often written informally, using abbreviations, colloquial terms, etc, and
(ii) identifying specific keywords relevant to each broad topic. Note that, each individual microblog contains only a few words, and might not contain most of the specific keywords even though the tweet is relevant to a topic.

Data

The data will contain:

  1. Around 50,000 microblogs (tweets) from Twitter, that were posted during the Nepal earthquake in April 2015. Tweet ids along with a script to download the tweets will be provided to the participants.
  2. A set of 5 – 8 topics in TREC format, each containing a title, a brief description, and a more detailed narrative on what type of tweets will be considered relevant to the topic.

Evaluation plan

Since the aim of this track is to extract a set of tweets that are relevant to each topic, set­-based evaluation metrics like precision, recall, and F­-score will be used. The gold­ standard, against which the set of tweets identified by the participants will be matched, will be generated by a “manual run” where human volunteers (assessors) will be given the same set of tweets and topics, and asked to identify all possible relevant tweets using a search engine (Indri).

Читать далее

Рубрика: Конференции, Ресурсы/Софт | Добавить комментарий

вышло введение в компьютерную лингвистику на русском языке

Копирую из рассылки:
Уважаемые коллеги!
Вчера вышла наша книжка, которую мы готовили два года. «Прикладная и компьютерная лингвистика» —
Мы хотели рассказать о современных технологиях прикладной лингвистики простым языком. Надеюсь, это получилось, хотя, конечно, будем рады любым замечаниям.
Книга затевалась как подарок А.С. Герду к 80-летию – которое сегодня! Но он очень не любил поздравления, и вот, смог уклониться от чествований. 2 мая 2016 года он умер, не выдержав нервных перегрузок последних месяцев.
Но книжка вышла, и два последних абзаца введения рассказывают про Герда — мы не стали в них ничего менять, но только добавили его фотографию. При его жизни нельзя было фотографию добавить, он не одобрил бы.
Все авторы закончили нашу кафедру матлингвистики СПбГУ. Часть авторов работают в серьезных IT компаниях. А авторы-преподаватели тоже в основном участвуют в разных проектах по темам своих глав:

Читать далее

Рубрика: Книги | Добавить комментарий

хакатон в Москве

Хакатон по журналистике данных дает уникальную возможность научиться создавать медиапроекты нового уровня, соединяющие технологии анализа данных и журналистский креатив.
Организаторы: Высшая школа экономики, Аналитический центр при Правительстве РФ, SocialDataHub, АНО «Информационная культура».

Два ближайших выходных пройдут в интенсивной командной работе. Вас будут ждать очень разные и необычные исследовательские задачи:
— как сделать медицину понятной? Визуализация официальных документов Министерства здравоохранения (курирует Минздрав РФ);
— ДЕНЕГНЕТ: докажите, есть ли в стране финансовый кризис? (курирует аналитический проект ГосЗатраты , https://clearspending.ru/);
— как нарисовать бюджет? Открытые данные единого портала бюджетной системы budget.gov.ru и Минфина России.

Участники могут выбрать и свободную тему, связанную с открытыми данными России. Эти темы будут оцениваться в номинациях «Лучший дизайн» и «Лучший дата-журналист»

Вас ждет знакомство с открытыми данными, выступления профильных специалистов, увлекательный поиск данных под руководством опытных менторов и возможность на собственном опыте познакомиться с тонкостями работы системы государственного управления РФ.

Результатом работы может быть журналистский материал, мультимедийная публикация на платформе типа Tilda (https://tilda.cc/ru/ ), визуализация, исследование.
Завершится хакатон публичным представлением проектов, по результатам которого жюри выберет победителей.

Приглашаем к  участию сотрудников СМИ, программистов, дизайнеров, технических и творческих специалистов, студентов гуманитарных и технических специальностей и всех, кто хочет понять открытые данные России.
Подать заявку можно командой и индивидуально.

Дипломы победителей и участников хакатона будут учитываться в конкурсе портфолио при поступлении на магистерские программы «Журналистика данных», «Дизайн», «Коммуникационный дизайн» НИУ ВШЭ осенью текущего года.

Победители в номинации, представленной Минздравом России, получат благодарственные письма Министра здравоохранения В.И. Скворцовой.

Хакатон пройдет 25-26 июня в «Точке кипения» Агентства стратегических инициатив (Москва, Малый Конюшковский переулок, д. 2).
Полная информация о хакатоне: https://leader-id.ru/event/2331/
Зарегистрироваться можно здесь: https://leader-id.ru/registration/

Со всеми вопросами по открытым данным и по участию можно обращаться по любому из контактов:

Елена Никитина,
эксперт по Открытым данным
Аналитического центра при Правительстве РФ
e.nikitina[собачка]ac.gov.ru
nike64[собачка]gmail.com

Рубрика: Конференции, Лекции/Семинары | Добавить комментарий

хакатон в эти выходные с возможностью выиграть полмиллиона

Budget Stories – это двухдневный конкурс для журналистов и программистов, организованный по инициативе Министерства финансов РФ.
Задача – создать мобильное или веб-приложение, статью или инфографику на основе данных Министерства финансов РФ, Федерального казначейства, ФНС и других государственных органов России.
Полный список источников данных можно увидеть по ссылке: www.budgetstories.ru.

Работа будет проходить под руководством менторов, среди которых специалисты по открытым данным в России и практикующие журналисты:
— Майя Стравинская, креативный директор студии «Рамблер Инфографика», журналист и медиаменеджер;
— Иван Бегтин, директор АНО «Информационная культура», инициатор создания «Открытого правительства», главный специалист по открытым данным в России;
— Юрий Синодов, основатель и издатель Roem.ru, интернет-журналист;
— Роман Романюк, главный редактор журнала «Эксперт Северо-Запад»;
— Ирины Радченко, главный координатор российского отделения Фонда Открытых знаний;
— Михаил Карягин, ведущий эксперт проекта «Инфометр».

Авторы лучшего проекта хакатона получат денежный приз в размере 30.000 руб.,
обладатели второго места – 20.000 руб.,
а вся тройка лидеров – редкие книги по инфографике.

Всем участникам Budget Stories будет оказана поддержка для подачи своего медиапроекта на конкурс «BudgetApps» http://budgetapps.ru/ (окончание в сентябре 2016 г.) с призовым фондом 500.000 руб.

Со всеми вопросами по открытым финансовым и не только данным и по участию можно обращаться по любому из контактов:
Елена Никитина
nike64[цобачка]gmail.com

Рубрика: Конференции, Лекции/Семинары | Добавить комментарий

AINL: приглашение к участию

http://ainlconf.ru/

5-я конференция по искусственному интеллекту и обработке естественного языка AINL пройдёт 10-12 ноября 2016 в Санкт-Петербурге.

Мы приглашаем к участию всех заинтересованных в разработке интеллектуальных технологий: студентов, учёных, представителей IT-компаний. Целью конференции является создание среды для общения между представителями академии и индустрии, поэтому формат совмещает черты промышленной выставки и научной конференции.

Основные направления конференции:
Обработка естественного языка
Искусственный интеллект
Информационный поиск
Социальные медиа и анализ социальных сетей
Генерация и распознавание текста, Обработка речи
Диалоговые системы и человекомашинные интерфейсы
Связанные данные (Linked data) и Семантический веб (Semantic Web)
Анализ контекста, Большие данные (Big Data), Анализ данных
Установление авторства, нахождение плагиата
Робототехника

Мы принимаем полнотекстовые (от 6 до 12 страниц) и короткие (от 1 до 4 страниц) доклады. В полнотекстовых докладах должны быть описаны оригинальные, завершённые и неопубликованные ранее работы. Принятые доклады подаются на IEEE Xplore и индексируются Scopus. Короткие доклады подойдут для текущих работ и могут быть представлены в виде постера или демо.

В рамках конференции также проводится индустриальная секция, для участия в которой необходимо подать заявку (1 страницу) через систему Easy Chair.

Даты

Срок подачи полнотекстовых и коротких статей: 15 сентября 2016
Решение о публикации: 15 октября 2016
Срок подачи окончательных версий: 26 октября 2016
Срок подачи индустриальных заявок: 26 октября 2016
Решение о приёме индустриальных заявок: 1 ноября 2016
Конференция: 10-12 ноября 2016

Полный анонс на английском языке см. на нашем сайте: http://ainlconf.ru/cfp
Сайт конференции: ainlconf.ru

Рубрика: Конференции | Добавить комментарий

очень сильная в этом году программа на руссире

10th Russian Summer School in Information Retrieval (RuSSIR 2016)
August 22-26, 2016, Saratov, Russia, http://romip.ru/russir2016/

Application deadline: June 25, 2016

The 10th Russian Summer School in Information Retrieval (RuSSIR 2016)
will be held on August 22-26, 2016 in Saratov, Russia. The school is co-
organized by the Saratov National Research State University (http://sgu.ru/en/)
and the Russian Information Retrieval Evaluation Seminar
(ROMIP, http://romip.ru/en/. The RuSSIR-2016 will have a special focus
on semantic search, construction of knowledge repositories (dictionaries,
thesauri, ontologies, semantic networks, knowledge graphs, etc.) and their
applications for the Information Retrieval.

The missions of the RuSSIR school series are to enable students to learn
about modern problems and methods in information retrieval and related
disciplines; to stimulate scientific research and collaboration in the
field; and to create an environment for informal contacts between
scientists, students and industry professionals.

RuSSIR 2016 will offer the following courses:
* Gianluca Demartini (University of Sheffield, UK): Crowdsourcing and
Human Computation for Semantic Search
* Ingmar Weber (Qatar Computing Research Institute, Qatar): Computational
Social Science: Theories, Methods and Data
* Alexander Kotov (Wayne State University, USA): Knowledge Graph Entity
Representation and Retrieval
* Krisztian Balog (University of Stavanger, Norway): Entity Linking
* Fabian Suchanek (Telecom ParisTech University, France): Ontological
Information Extraction
* Mihai Lupu (Vienna University of Technology, Austria): Domain Specific
Semantic Search
* Shlomo Berkovsky (CSIRO, Australia): Social Personalization and
Recommender Systems
* Heng Ji (Rensselaer Polytechnic Institute, USA): Knowledge Base
Population
* Ilya Markov (University of Amsterdam, Netherlands): Click Models for
Web Search
* Boris Mirkin (NRU HSE, Russia & University of London, UK): Model- and
experiment-driven recommendations for haunting issues in clustering
Читать далее

Рубрика: Курсы/Образование/Постдоки | Добавить комментарий

Коллокация как начальная точка грамматического и лексического процессов

17 июня 2016 года, в пятницу, в 15.00 в отделе теории грамматики ИЛИ РАН (Тучков пер., д. 9, к. 306–308)  состоится доклад М. В. Копотева (Хельсинкский университет, Финляндия)

«Коллокация как начальная точка грамматического и лексического процессов»

Аннотация. Представление о том, что «слова характеризуются тем, что их окружает» [Firth 1957], имеет долгую историю. В последние годы анализ больших массивов данных и возможность экспериментально определять сочетаемостные предпочтения позволили выявить единицы, занимающие промежуточное положение между многокомпонентной лексемой (фразеологизмом) и словосочетанием. Одним из результатов этого интенсивного изучения стала такая трактовка статистических [Evert, 2008], или эмпирических [Nesselhauf, 2005], коллокаций, при которой коллокации понимаются шире, чем языковые единицы, имеющие некомпозициональное значение [Мельчук 1960; Mel’čuk 1995; Борисова 1995; Воейкова 2005, Кустова 2008в и др.]. В докладе под коллокацией подразумевается «неслучайное сочетание двух и более лексических единиц» [Ягунова, Пивоварова 2011: 575, см. еще Stubbs 2005; Sinclair & Mauranen 2006 и др.]. Будет показано, что устойчивая воспроизводимость коллокаций формирует набор признаков, который включает в себя частотные характеристики совместной встречаемости, а также конструкционные ограничения и ограничения конкретной лексемы, проницаемость и др. Коллокации часто являются «свободными» (т.е. устроенными композиционально) единицами, но именно они служат начальной точкой языкового обобщения и именно их устойчивое воспроизведение приводит к появлению лексического фразеологизма, синтаксической конструкции или морфологического правила.

 

 

 

 

 

 

Приглашаются желающие

Рубрика: Лекции/Семинары | Комментарии (3)

EKAW CFP

========================================================
CALL FOR PAPERS
20th International Conference on Knowledge Engineering and Knowledge Management (EKAW 2016)
19-23 November 2016, Bologna, Italy
Abstract submission: July 8, 2016
Paper submission: July 15, 2016
========================================================
The 20th International Conference on Knowledge Engineering and Knowledge Management is concerned with the impact of time and space on the representation of knowledge. Knowledge engineering has mostly been about creating static, universal representations. Yet the world is rarely static: everything changes, including the models, and real world systems need to evolve along with the surrounding world. Also, what makes some representations valid in some contexts may make them invalid elsewhere (e.g., jurisdiction for laws).
The special focus of this year’s EKAW is «evolving knowledge», which concerns all aspects of the management and acquisition of knowledge representations of evolving, contextual, and local models. This includes change management, trend detection, model evolution, streaming data and stream reasoning, event processing, time-and space dependent models, contextual and local knowledge representations, etc.
EKAW 2016 will put a special emphasis on the evolvability and localization of knowledge and the correct usage of these limits.
== PROCEEDINGS ==
The proceedings of the research and in-use track will be published by Springer Verlag in the LNCS series.
The authors of selected best papers will be invited to submit an extended version of their manuscript to a special issue of the Semantic Web Journal by IOS Press.
== BEST PAPER AWARD ==
Research and in-use papers are eligible for the Bob Wielinga Best Paper Award (http://ekaw2016.cs.unibo.it/?q=awards) sponsored by Springer Nature that will award a prize of 1,000 euros to the best paper of the main track.
== TOPICS OF INTEREST ==
EKAW 2016 welcomes papers dealing with theoretical, methodological, experimental, and application-oriented aspects of knowledge engineering and knowledge management.
In particular, but not exclusively, we solicit papers about methods, tools and methodologies relevant with regard to the following topics:
    — Knowledge in evolving and local contexts
        — Model evolution
            — Ontology evolution
            — Ontology debugging
            — Ontology change management and versioning
            — Ontology usage trends
        — Methods and methodologies for time awareness
       — Modelling of time-indexed knowledge
       — Ontology design patterns for time-indexed knowledge
       — Reasoning over time-indexed knowledge
       — Stream processing and stream reasoning
       — Event processing
        — Methods and methodologies for context awareness
            — Modelling of contextualised knowledge
            — Ontology design patterns for representing context
            — Reasoning with context
            — Context-aware knowledge-based applications
        — Lessons learned from case studies
            — Knowledge management in large organisations
            — Adoption of semantic web technologies
            — Maintenance of corporate knowledge repositories
        — Applications in specific domains domains such as
            — eGovernment and public administration
            — Life sciences, health and medicine
            — Humanities and Social Sciences
            — Automotive and manufacturing industry
            — Cultural heritage
            — Digital libraries
            — Geosciences
            — ICT4D (Knowledge in the developing world)
    — Knowledge Management
   — Methodologies and tools for knowledge management
   — Knowledge sharing and distribution, collaboration
   — Best practices and lessons learned from case studies
   — Provenance and trust in knowledge management
   — Methods for accelerating take-up of knowledge management technologies
   — Corporate memories for knowledge management
   — Evolution, maintenance and preservation of knowledge
   — Web 2.0 technologies for knowledge management
   — Incentives for human knowledge acquisition (e.g. games with a purpose)
— Knowledge Engineering and Acquisition
   — Tools and methodologies for ontology engineering
   — Ontology design patterns
   — Ontology localisation
   — Ontology alignment
   — Knowledge authoring and semantic annotation
   — Knowledge acquisition from non-ontological resources (thesauri, folksonomies etc.)
   — Semi-automatic knowledge acquisition, e.g., ontology learning
   — Mining the Semantic Web and the Web of Data
   — Ontology evaluation and metrics
   — Uncertainty and vagueness in knowledge representation
   — Dealing with dynamic, distributed and emerging knowledge
— Social and Cognitive Aspects of Knowledge Representation
   — Similarity and analogy-based reasoning
   — Knowledge representation inspired by cognitive science
   — Synergies between humans and machines
   — Knowledge emerging from user interaction and networks
   — Knowledge ecosystems
   — Expert finding, e.g., by social network analysis
   — Trust and privacy in knowledge representation
   — Collaborative and social approaches to knowledge management and acquisition
   — Crowdsourcing in knowledge management
== TYPE OF PAPERS ==
We will accept different types of papers. The papers will all have the same status and follow the same formatting guidelines in the proceedings but will receive special treatment during the reviewing phase. In particular, each paper type will be subject to its own evaluation criteria. The Programme Committee will also make sure that there is a reasonable balance of the paper types accepted. At submission time the paper has to be clearly identified as belonging to one of the following categories.
    — Research papers: These are «standard» papers presenting a novel method, technique or analysis with appropriate empirical or other types of evaluation as a proof-of concept. The main evaluation criteria here will be originality, technical soundness and validation.
    — In-use papers: Here we are expecting papers describing applications of knowledge management and engineering in real environments. Applications need to address a sufficiently interesting and challenging problem on real-world datasets, involving many users etc. The focus is less on the originality of the approach and more on presenting systems that solve a significant problem while addressing the particular challenges that come with the use of real-world data. Evaluations are essential for this type of paper and should involve a representative subset of the actual users of the system.
    — Position papers: We invite researchers to also publish position papers, which describe novel and innovative ideas. Position papers may also comprise an analysis of currently unsolved problems, or review these problems from a new perspective, in order contribute to a better understanding of these problems in the research community. We expect that such papers will guide future research by highlighting critical assumptions, motivating the difficulty of a certain problem or explaining why current techniques are not sufficient, possibly corroborated by quantitative and qualitative arguments.
== IMPORTANT DATES ==
    — Abstract deadline: July 8, 2016
    — Submission deadline: July 15, 2016
    — Notification of acceptance: September 8, 2016
    — Camera-ready paper: September 26, 2016
    — Conference days: November 19-23, 2016
== SUBMISSIONS ==
Pre-submission of abstracts is a strict requirement. All papers and abstracts have to be submitted electronically via http://www.easychair.org/conferences/?conf=ekaw2016.
All research and in-use submissions must be in English, and no longer than 15 pages. Papers that exceed this limit will be rejected without review.
Submissions must be either in PDF or in HTML, formatted in the style of the Springer Publications format for Lecture Notes in Computer Science (LNCS). For details on the LNCS style, see Springer’s Author Instructions (http://www.springer.com/computer/lncs?SGWID=0-164-6-793341-0). For details on the HTML format, see the HTML submission guide (http://ekaw2016.cs.unibo.it/?q=html-submission-guide).
== ORGANIZATION ==
General chair
    — Paolo Ciancarini (University of Bologna, Italy)
Program chairs
    — Eva Blomqvist (Linköping University, Sweden)
    — Fabio Vitali (University of Bologna, Italy)
Рубрика: Конференции | Добавить комментарий

Семинары CDUD и SCAKD 2016

Совместно с международной конференцией CLA 2016 в московской Вышке проходит семинар по обнаружению понятий в неструктурированных данных (CDUD 2016) и семинар по «мягким» вычислениям и их приложениям (SCAKD 2016). Принятые работы публикуются в материалах CEUR-WS.org (Scopus, dblp).
Читать далее

Рубрика: Конференции, Лекции/Семинары | Добавить комментарий

школа по Digital Humanities

I Московско-Тартуская школа по цифровым гуманитарным исследованиям
4–7 июля 2016
Ясная Поляна, Тульская область
https://ling.hse.ru/digitalhum

#digitalhumanities #compling #datascience #digitaltolstoy

С начала XX века ученые мечтали о точных подходах к анализу текста, но до сих пор основанные на них исследования остаются на периферии как гуманитарных, так и компьютерных наук.
В цифровую эпоху появилось множество методов анализа больших данных. Применение современных компьютерных инструментов решает вопрос фальсификации гуманитарных теорий и служит источником множества интересных идей для специалистов. Анализ художественных текстов – настоящий вызов для современных методов текст-майнинга и больших данных.

Школа лингвистики НИУ ВШЭ и Тартуская лаборатория «СПЖК» при кафедре русской литературы объявляет набор на Московско-тартускую школу по цифровым гуманитарным исследованиям. Участникам предстоит научиться использовать точные методы для анализа больших корпусов текстов, обычно остающихся за пределами исследований, применяющих более традиционную оптику.

Школа пройдет 4–7 июля в Музее-усадьбе Л.Н. Толстого в Ясной поляне в Тульской области. Студенты школы в течение четырех дней будут слушать лекции в области Digital Humanities и работать вместе с профессорами и преподавателями над решением конкретных текстологических задач в рамках одного из тьюториалов.

К участию в школе приглашаются исследователи как c гуманитарным бэкграундом, так и с техническим. Никаких предварительных навыков компьютерного или филологического анализа текста не требуется. Чтобы стать участником школы, необходимо заполнить заявку и написать, почему вам интересно участие в школе и в каком тьюториале вы хотели бы работать. Список тьюториалов доступен на сайте: https://ling.hse.ru/digitalhum/program.

Заявки принимаются по адресу http://goo.gl/forms/nS1obsiu2Y до 1 июня 2016 г. Организаторы отберут участников школы к 10 июня 2016 и оповестят финалистов по электронной почте.

Финалисты конкурса получат грант, покрывающий расходы на проживание и участие во всех включенных в программу школы мероприятиях (грант не покрывает питание и транспортные расходы участников).

Подробнее на сайте https://ling.hse.ru/digitalhum .
Все вопросы о школе можно отправлять руководителю школы Анастасии Бонч-Осмоловской по адресу abonch[собачка]hse.ru

Рубрика: Курсы/Образование/Постдоки | Добавить комментарий