Вакансия Лингвист (NLP)

В компании I-Free (www.i-free.com) запускается новый проект по разработке чат-ботов и голосовых сервисов с использованием слабого искусственного интеллекта.

Мы ищем Лингвиста, которому будет интересно стать частью сильной команды с экспертизой в области AI. Подробнее о нашем отделе: www.just-ai.com

Обязанности:

  • Разработка сценариев поведения чат-бота;
  • Написание правил обработки естественного языка;
  • Написание логики работы чат-бота на JavaScript;
  • Обработка больших массивов текстовых данных: очистка, разметка, кластеризация и тематизация.

Читать далее

Рубрика: Вакансии/Стажировки | Добавить комментарий

дорожка по определению плагиата

Уважаемые коллеги!
В 2016-2017 гг. планируется организовать семинар по оценке алгоритмов поиска заимствований в текстах PlagEvalRus. Семинар продолжает традиции независимой оценки методов и алгоритмов лингвистического анализа разного уровня, проводимой в рамках форума RU-EVAL.

В ходе семинара планируется решение задача поиска внешних заимствований (External Plagiarism Detection). Тематика текстов смещена в сторону заимствований в научных текстах (академический плагиат). Предлагаются следующие дорожки (точный набор зависит от количества участников):

  1. Дословные заимствования. Copy and paste (c&p) plagiarism detection.
  2. Заимствования с парафразами. Paraphrased plagiarism detection.
  3. Переводные заимствования с английского на русский. Cross-language plagiarism detection (en-ru)
  4. Переводные заимствования с русского на украинский. Cross-language plagiarism detection (ru-uk)

Приглашаем всех заинтересованных участников познакомиться с предварительными условиями и заполнить анкету (она же заявка на участие) на сайте: http://ru-eval.ru/plageval
Срок подачи заявок – 1 октября.
Контактный адрес: plagevalrus[цобачка]gmail.com

Организаторы семинара:
Иван Смирнов (Институт системного анализа ФИЦ ИУ РАН, Москва), Михаил Копотев (Хельсинкский университет, Финляндия), Андрей Кутузов (Университет Осло, Норвегия), Илья Соченков (Институт системного анализа ФИЦ ИУ РАН, Москва), Ольга Ляшевская (НИУ «Высшая школа экономики», Институт русского языка РАН им. В. В. Виноградова, Москва), Рита Кузнецова (компания Антиплагиат.ру), Олег Бахтеев (компания Антиплагиат.ру), Любовь Иванова (НИУ «Высшая школа экономики», Москва, секретарь семинара).

Рубрика: Конференции, Ресурсы/Софт | Добавить комментарий

NODALIDA: cfp

21st Nordic Conference on Computational Linguistics (NoDaLiDa)

Monday, May 22, to Wednesday, May 24, 2017
Gothenburg, Sweden

http://nodalida2017.se
https://easychair.org/conferences/?conf=nodalida2017

CALL FOR PAPERS

The Northern European Association for Language Technology (NEALT)
invites submissions to its bi-annual conference on human language and
speech technologies.  NoDaLiDa 2017 will be held between May 22 and May
24, 2017 at Conference Centre Wallenberg, centrally located in
Gothenburg. Please mark your calendars.

Читать далее

Рубрика: Конференции | Добавить комментарий

Выиграйте подарочный сертификат стоимостью 5000 рублей за участие в онлайн-эксперименте!

Мы проводим эксперимент, в котором носителям русского языка предлагается оценить приемлемость форм глагола совершенного и несовершенного вида в текстах на русском языке. Эксперимент проводится в интернете, участнику нужно прочитать текст и кликнуть на глаголы, чтобы их оценить. Тексты недлинные (от 1100 до 1800 слов). В конце опроса каждый участник получит лотерейный код. На каждые сто опросов мы купим у ozon.ru три подарочных сертификата стоимостью 5000 рублей, которые участники смогут выиграть в лотерее.

Участник должен быть носителем русского языка и не моложе 16 лет.

Эксперимент проводится анонимно. Мы не будем собирать ни личных сведений, ни IP-адресов.

Срок эксперимента: 12.09.-31.10.2016 или до того момента, как мы получим 500 заполненных опросов.

Наша цель чисто научная: мы хотим лучше понимать, как устроен глагольный вид в русском языке, чтобы лучше его описать для лингвистов и эффективнее помогать нашим студентам, которые с трудом осваивают русскую грамматику.

Просим переслать это объявление дальше всем знакомым, которые могли бы участвовать в нашем эксперименте.

Немного о нас:

Лора Янда работает профессором русского языка и лингвистики в Норвегии (http://ansatte.uit.no/laura.janda/).

Роберт Рейнольдс (https://en.uit.no/om/enhet/ansatte/person?p_document_id=347597&p_dimension_id=210121) уже защитил диссертацию и будет работать дальше в Норвегии в должности постдока.

Для участия в эксперименте кликните по этой ссылке: https://byu.az1.qualtrics.com/SE/?SID=SV_0DF9E3R3dgw41wh

 

Рубрика: Без рубрики | Добавить комментарий

WSDM Cup 2017: Adobe Sponsors Awards for Vandalism Detection and Triple Scoring in Knowledge Bases

——————————————————————————-
WSDM Cup 2017: Call for Participation
——————————————————————————-
We invite you to take part in the following shared tasks:
Task 1.
Vandalism Detection — Given a Wikidata revision, is it damaging?
This task is about detecting vandalism as well as all other kinds of damaging
edits to Wikidata. In doing so, not only Wikidata’s integrity is protected, but
also that of all information systems making use of the knowledge base.
Task 2.
Triple Scoring — Compute relevance scores for triples from type-like relations.
For example, the triple “Johnny_Depp profession Actor” should get a high score,
because acting is Depp’s main profession, whereas “Quentin_Tarantino profession
Actor” should get a low score, because Tarantino is more of a director than an
actor. Such scores are a basic ingredient for ranking results in entity search.
——————————————————————————-
Important Dates
——————————————————————————-
now open         Registration
Sep    1, 2016   Training data release
Oct   15, 2016   Early bird software submission
Dec    8, 2016   Final software submission
Dec   22, 2016   Announcement of evaluation results
Jan    5, 2017   Paper submission
Feb 6-10, 2017   Conference and WSDM Cup workshop
All deadlines are 11:59 PM, anywhere on earth (AoE).
——————————————————————————-
Special Announcements
——————————————————————————-
Awards for best-performing submissions.
Aobe Systems, Inc. sponsors the WSDM Cup with a total of $5000 in awards for
the best-performing submissions. The winners of each task will receive an
award of $1500, and the second and third runner-ups $750 and $250.

Читать далее

Рубрика: Ресурсы/Софт | Добавить комментарий

Анализ разговорной русской речи

Уважаемые коллеги!

Приглашаем вас принять участие в работе VII междисциплинарного семинара «Анализ разговорной русской речи» (АР3-2017), который ориентировочно пройдёт 19-20 января 2017 года в Санкт-Петербургском государственном университете. Семинар будет проводиться при поддержке ISCA Special Interest Group on Russian Speech Analysis. В этом году основной темой семинара будет работа с речевыми корпусами.

Приглашаются для участия лингвисты и технические специалисты, занимающиеся разработкой, сбором и аннотацией доступных речевых и текстовых корпусов в России и заинтересованные в распространении и обмене информацией о своих материалах и инструментах.

Особенность этого семинара будет в том, что приглашаются участники, ведущие свои исследования не только на русском, но и остальных языках России.

В первую очередь предпочтение будет отдаваться докладам по следующим направлениям:

– разработка речевых корпусов;

– разработка корпусов текстов разговорной речи;

– нормализация данных;

– стандартизация описания данных;

– аннотация данных;

– проверка качества данных и аннотации;

– инструментарий для разработки и работы с корпусами. Читать далее

Рубрика: Конференции | Добавить комментарий

AINL: две недели до подачи статей

CALL FOR PARTICIPATION

AINL: Artificial Intelligence and Natural Language

St-Petersburg, Russia, 10-12 November 2015

The 5th conference on Artificial Intelligence and Natural Language invites everybody interested in intellectual technologies, both from academic institutes and innovative companies. The conference aimed to bring together experts in the areas of language processing, speech technologies, dialogue systems, information retrieval, artificial intelligence and robotics; to create a platform for sharing experience, extending contacts and searching for possible collaboration.

The AINL series has been organized since 2012 and has developed a set of distinctive features:

– a strong practical focus: industrial talks and product demonstrations is an essential part of the conference program;

– an interactive component: the conference programs includes a number of workshops and panel discussions, as well as poster session and other interactive forms

– an encouraging attitude towards students and researchers on the early stage of career.

All together, this makes AINL a nice get-together opportunity.

CONFERENCE TOPICS

  • Natural Language Processing
  • Artificial Intelligence
  • Information Retrieval
  • Social Media and Social Network Analysis
  • Speech Generation and Recognition, Spoken language processing
  • Human-Computer Interfaces, Dialogue systems
  • Linked Data and Semantic Web
  • Context Analysis, Big Data and Data Mining
  • Plagiarism Detection, Author Profiling and Authorship Detection

AINL-2016 HIGHLIGHTS:

  • Special section on Business Intelligence
  • hared Task on Russian Paraphrase Detection

Читать далее

Рубрика: Конференции | Добавить комментарий

CFP: ConCorT 2016

Корпусные технологии

Digital Humanities и современное знание

1416 октября 2016 г.

 Факультет гуманитарных наук НИУ ВШЭ (Нижний Новгород) и Школа лингвистики Факультета гуманитарных наук НИУ ВШЭ (г. Москва) приглашают вас принять участие в Международной научно-практической конференции «Корпусные технологии. Digital Humanities и современное знание».

Сегодня компьютерные и корпусные технологии в исследованиях языка и обучении языкам занимают ведущее место, наряду с традиционными методами анализа. Постоянно создаются новые корпусные ресурсы, новые программные средства для анализа языка: морфологической разметки, синтаксического анализа, транскрипции и транслитерации языков с редкими системами письма и т.д. Область Digital Humanities также сделала рывок вперёд: от простого представления текстов в Интернете специалисты переходят к полноценным системам, позволяющим проследить сюжетные линии произведения, семантические поля, релевантные для анализа произведения, синтаксические особенности текста и т.д.

Именно поэтому необходимы встречи, где специалисты в разных областях компьютерной парадигмы лингвистики могут поделиться своими разработками, идеями и взглядами на развитие своей научной  парадигмы.

Конференция «ConCorT» была впервые проведена в 2013 году и с тех пор стала ежегодной.

 

Цели и задачи конференции:

  • Содействовать распространению корпусных технологий в гуманитарных науках и, в целом, дигитализации и компьютеризации гуманитарного знания
  • Представить результаты применения корпусных технологий в лингвистических исследованиях
  • Объединить экспертное сообщество широкого гуманитарного профиля вокруг новых методологий анализа
  • Привлечь молодых исследователей к данной научной проблематике.

 Предполагается обсуждение следующего круга проблем: 

  1. Тенденции развития гуманитарных наук в век цифровых технологий
  2. Электронные лингвистические ресурсы: корпуса и коллекции текстов, электронные словари и тезаурусы
  3. Корпусные технологии в исследованиях и преподавании гуманитарных дисциплин
  4. Digital Humanities, корпусная поэтика и компаративные исследования
  5. Корпусная лингводидактика

В качестве ключевых докладчиков и ведущих мастер-классов приглашены следующие специалисты:

Е. Протасова (Хельсинкский университет, Финляндия)

Н. Эллис (Мичиганский университет, США)

Э. Гроссман (Иерусалимский университет)

И. Кор Шаин (Университет Прованса, Франция)

Р. Лейбов (Тартуский университет, Эстония)


Рабочие языки конференции: русский и английский

Место проведения – НИУ ВШЭ в Нижнем Новгороде

Даты проведения 28-29 октября 2016 г.

  Читать далее

Рубрика: Конференции | Добавить комментарий

дорожка по определению русскоязычного парафраза

Приглашаем к участию в дорожке по определению парафраза для русского
языка. Дорожка проводится на основе данных корпуса ParaPhraser
(http://www.paraphraser.ru/). ParaPhraser – это общедоступный корпус
пар русских предложений, вручную размеченных как парафраз, частичный
парафраз или непарафраз. Работа по созданию и анализу корпуса
проводилась в рамках проекта по исследованию структуры новостных
текстов (СПбГУ, Е.В. Ягунова, Е.В. Проноза и др). Размер корпуса в
настоящий момент – 7000 пар, эти данные будут использоваться как
обучающее множество. Тестовое множество накапливается в настоящее
время с помощью краудсорсинга, его предполагаемый размер – около 1000
пар предложений.

Дорожка будет организована согласно стандартной процедуре: участвующие
системы получают на вход пару предложений и возвращают ее класс.
Участникам будет предложено два типа заданий: классификация на два
класса (парафраз – непарафраз) и на три класса (парафраз – частичный
парафраз – непарафраз). Участники могут участвовать в “стандартных”
прогонах, для которых система обучается только на корпусе ParaPhraser,
и “нестандартных”, в которых можно использовать любые другие данные.
“Стандартные” и “нестандартные” прогоны оцениваются отдельно.

Более подробное описание заданий, данных и методов оценки можно найти
по ссылке: http://www.paraphraser.ru/download/get?file_id=2

Предварительное расписание дорожки:

Июль 2016: первое информационное письмо, обучающие данные доступны на
странице скачивания корпуса
1 сентября 2016: второе информационное письмо
1 октября 2016: публикация тестовых данных
10 октября 2016: крайний срок подачи ответов
12 октября 2016: публикация результатов
11-12 ноября 2016: семинар с докладами участников и обсуждением
результатов (в рамках конференции AINL, Санкт-Петербург,
http://ainlconf.ru/)
конец декабря 2016: крайний срок подачи полных статей (планируется
публикация сборника с попаданием в международные индексы, детали
уточняются)

Организаторы

Лидия Пивоварова, Университет Хельсинки
Екатерина Проноза, СПбГУ
Елена Ягунова, СПбГУ

Контакты

russian.paraphrase[at]gmail.com

Рубрика: Конференции, Ресурсы/Софт | Добавить комментарий

SimVerb-3500 : a new evaluation resource for verb pair similarity

We are very happy to announce the release of SimVerb-3500 : a new
evaluation resource for verb pair similarity. SimVerb-3500 consists of 3500
verb pairs, each is rated by 10 human judges for similarity, with scores on
a 1-10 scale. The annotation guidelines are adopted from SimLex-999 so that
the judges are guided to judge similarity rather than association.

SimVerb-3500 is a high coverage resource: it covers all normed verb types
from the USF free-association database, and consists of at least three verb
type examples from every VerbNet class. It is divided into train,
development and test sets to facilitate principled machine learning
research.

The resource can be downloaded from:

http://people.ds.cam.ac.uk/dsg40/simverb.html

A paper describing the dataset and analysing the performance of various
state-of-the-art vector space models in predicting its scores has recently
been accepted to EMNLP 2016:

*SimVerb-3500: A Large-Scale Evaluation Set of Verb Similarity*
Daniela Gerz, Ivan Vuli?, Felix Hill, Roi Reichart and Anna Korhonen.
EMNLP 2016. [pdf
<http://people.ds.cam.ac.uk/dsg40/paper/simverb/simverb-3500.pdf>][bibtex
<http://people.ds.cam.ac.uk/dsg40/paper/simverb/simverb-bibtex.txt>]

Рубрика: Ресурсы/Софт | Добавить комментарий