Проекты

Как ни странно, в мире прикладной лингвистики существует масса полезных проектов, о которых мало кто знает.

Проекты можно приблизительно разделить на две группы: «для пользователей» (можно взять программу и/или данные и пользоваться) и «для программистов» (можно поучаствовать в разработке и 1) сделать что-то полезное + 2) получить интересный опыт). Видимо, проект, входящий в обе группы, можно считать успешным.

Некоторые из проектов, которые нам нравятся, приведены ниже.

GATE

Расшифровывается как General Architecture for Text Engineering. Один из старейших лингвистических проектов, существующих до сих пор. Разрабатывается в Лидском университете. Open source. Представляет собой фреймворк для подключения разнообразных модулей (токенизации, синтаксического анализа и т. д.), особенно удобный для задач извлечения фактов (fact extraction). Удобный интерфейс для разметки корпусов. Готовые модули разработаны для многих языков, но для русского языка, как водится, практически ничего нет.

Нужны программисты (Java) и лингвисты (разработка правил для модулей).

На нашем семинаре был интересный доклад про GATE. Кроме того, на сайте проекта есть куча обучающих видео о том, как работать с программой. Вообще, GATE приятно удивляет качеством своей документации.

OpenNLP

Набор Java-библиотек для NLP, включает разнообразные способы машинного обучения.

Соответственно, нужны JAVA-программисты и желающие тестировать.

NLTK

Набирающий популярность фреймворк для разнообразного NLP. Русский язык поддержан слабо, но, насколько можно судить, работы ведутся.

Нужны программисты (Python) и желающие перевести NLTK Book на русский язык.

Moses

Вероятно, самый известный движок статистического машинного перевода.

Нужны разработчики на С++.

Apertium

Проект по созданию rule-based машинного перевода с любого языка на любой.

Нужны программисты (C++) и лингвисты (для составления морфологических словарей и правил перевода в разных языковых парах).

 

Также не можем не прорекламировать наш проект OpenCorpora по созданию общедоступного (CC-BY-SA) корпуса текстов на русском языке.

Об авторе Дмитрий Грановский

— Яндекс, разработчик — СПбГУ, ассистент — OpenCorpora.org, разработчик
Запись опубликована в рубрике Обзоры/Редакционное, Ресурсы/Софт. Добавьте в закладки постоянную ссылку.

8 комментариев: Проекты

  1. Кстати, нам (OpenCorpora) нужен разработчик на PHP, Perl или Python.

  2. Yauhen говорит:

    Еще для разработчиков LingPipe, для онтологий редактор де-факто Protege.

  3. Yauhen говорит:

    Еще для разработчиков , для онтологий редактор де-факто

  4. Дмитрий Кан говорит:

    Проект по созданию машинного перевода (сейчас пара русский-английский). Нам нужны люди, интересующиеся машинным переводом 🙂

    http://www.semanticanalyzer.info/mtengine/

  5. И мы будем рады, если кто-нибудь сделает доклад/мастеркласс про остальные проекты.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *