Обратный хронологический перечень проектов и участников
Этот сайт возник в 2001 году (05.10.2001 - дата регистрация домена). Текст и документация написаны в то время или даже раньше и соответствуют тогдашним нашим представлениям о мире. За эти десятилетия IT-индустрия ушла очень далеко. Бум машинного обучения, начатый в начале 2010-х и переросший в то, что сейчас называют дип лерненгом не оставили места технологиям, представленным на этом сайте. Современный машинный перевод, синтез и анализ речи работают на других принципах. В общем архитектурном дизайне и локальном алгоритмах было очень много ручных правил, от которых промышленное программирование полностью сейчас отказались. Да, у нас использовались цепи Маркова, выравнивание двуязычных текстов, элементы машинного обучения, но это были вспомогательные инструменты. В основе была идея, что язык - это огромная логическая система, идея, выросшая из структурной лингвистики ХХ века. Структурный (декомпозиционный, логический, rule-based) подход может быть использован сейчас в дидактических целях (дети или иностранцы) или, например, для возможного лингвистического анализа, с целью получения текстовой аналитики.
Этот сайт - музей автоматической обработки текста, кунсткамера технологий рубежа тысячелетий. Кое-что из демок у нас еще работает! Не проходите мммо, это может быть любопытно!
ДАЛЬШЕ ИДЕТ ТЕКСТ 2001 ГОДА.
Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текста. В круг наших интересов в основном входит анализ русского языка.
Наш подход скорее можно назвать консервативным, чем революционным. Мы не верим ни в какую общую суперидею, объясняющую сущность естественного языка. Вместе с тем мы считаем, что только грамотная декомпиляция языковых механизмов позволит максимально приблизить человеческий язык к современному компьютеру.
Начиная с 2002 года мы выкладываем наши разработки с лицензией LGPL. Теперь каждый может бесплатно использовать наши библиотеки в своих программах, в том числе и в коммерческих приложениях.
Мы призываем всех, кто заинтересован в развитии компьютерной лингвистики, к широкому сотрудничеству.
Наши корни – факультет лингвистики в РГГУ. Большинство из нас - выпускники этого факультета, некоторые учатся в аспирантуре, некоторые уже получили кандидатскую степень. Традиционное деление нашей группы на программистов и лингвистов возникло из того, что на факультете лингвистики существовало отделение Искусственного Интеллекта(ИИ), где учили программированию больше, чем на основном потоке. Лингвист с основного потока проходил курсы фонетики, морфологии, синтаксиса, семантики, типологии, компаративистики и т.д. Он обязательно изучал по крайней мере два иностранных языка, хотя обычно количество изучаемых языков было три. Студент ИИ имел один обязательный курс иностранного языка (обычно два), лингвистические курсы, математику(матан, дискретка, логики, линейная алгебра и т.д.) и море программирования (С,С++, Pascal, Prolog, Lisp, Delphi, SQL, Java). Большинство выпускников основного потока становятся переводчиками и секретарями, тогда как большинство выпускников ИИ становятся программистами. Но некоторая часть людей захотела заниматься проектами, связанными с автоматической обработкой текста, т.е. приложением теоретической лингвистики к современным компьютерным технологиям. Но эта наклонность возникла не на пустом месте, ему предшествовало долгое обучение и разговоры с людьми, которых мы считаем своими учителями.
Декан факультет лингвистики А.Н.Барулин был первым человеком, который попытался объяснить нам, что такое лингвистика. Его вдохновенные лекции, несомненно, произвели на многих сильное впечатление, однако формальности явно не хватало. Зато формального было предостаточно в курсе логики В.К.Финна, автора известного ДСМ-метода. Курс морфологии Н.В.Перцова был довольно занудным, но довольно познавательным. «Формальные грамматики» А.В.Гладкого, одного из авторов этой теории, был наиболее изматывающим, но приучил нас к аккуратности. Типологические курсы Плунгяна В.А. заставили дрогнyть сердца некоторых из наших лингвистов. Энциклопедическая образованность в области программирования Епифанова М.Е. позволила нам узнать массу деталей о современных технологиях. Заведующий отделением ИИ Лахути Д.Г., один из главных идеологов информационных технологий, будучи уже немолодым человеком, всегда поражал нас своим энтузиазмом. И конечно, у нас были прекрасные учителя иностранных языков (всех не перечислишь!).
Среди студентов факультета нужно отметить Ю.Бронникова, имеющего большой авторитет в лингвистике и программировании. На четвертом годе обучения студентам читают курс автоматической обработки текста, который ведет Н.Н.Леонтьева. Именно к этому ученому сошлись наши пути.
В то время Нина Николаевна работала в Институте США и Канады, где руководила коллективом, который делал систему анализа политических текстов ПОЛИТЕКСТ. За ее плечами была работа в лаборатории, которой руководили И.Мельчук и О.Кулагина, потом была система ФРАП(французско-русского автоматического перевода). Леонтьева одна из первых заговорила о том, что нужно использовать семантическую информацию для машинной обработки текста. Ее основополагающие концепты семантического отношения, семантической категории и характеристики стали основой прикладной машинной семантики. Несмотря на всеобщее признание ее заслуг, которые могли бы привести к некоторой догматичности, Нина Николаевна по-прежнему интересуется прикладными системами и готова менять и улучшать свои подходы. В центре ее теории находится Русский общесемантический словарь (РОСС), в котором содержится семантическое описание полнозначных лексем русского языка. В основу ее методологического подхода положено разделение анализа на разные уровни, где каждый уровень есть некоторое представление входного текста. На каждом уровне - свой язык представления, именно язык, а не просто какие-то атрибуты. Конечный результат анализа – построение семантического представления, которое состоит из текстовых фактов-ситуаций. Отношения между ситуациями и другими ситуациями и другими актантами называются семантическими отношениями.
Апеллирование к семантике, открытость и известный научный авторитет Нины Николаевны собирает вокруг нее массу интересных людей, у которых мы могли многому научиться.
В декабре 1998 года Н.Н.Леонтьевой пришло предложение от президента фирмы ДИАЛИНГ (президент фирмы – Э.М.Хачукаев) начать проект коммерческого русско-английского машинного перевода. Нина Николаевна начала собирать людей, но по независящим от нее обстоятельствам ей пришлось отказаться от участия. Однако этот проект выжил и с некоторыми перерывами просуществовал 2,5 года. За это время в нем участвовало в общей сложности 22 человека. В мае 2001 года работа была окончательно прекращена, официальная причина - отсутствие финансирования, но мне кажется, что дело скорее в общем, общемировом снижении интереса к Интернету и высоким технологиям. Да, машинный перевод – очень ресурсоемкий проект. Чтобы довести существующую систему до нужного уровня, необходимо, наверное, еще два года, но это касается только машинного перевода – может быть – одной из самых сложных задач искусственного интеллекта. Но нельзя забывать, что машинный перевод – большая система, состоящая из многих компонент, представляющих отдельный коммерческий и научный интерес. Некоторые из этих компонент были нами реализованы на самом высоком уровне, и мы можем предложить их теперь на рынке программных продуктов (см. Продукты).
После закрытия проекта многие разработчики ушли работать в другие фирмы. Некоторые довольны новой работой, некоторые нет. Некоторые заканчивают аспирантуру или университет. В любом случае, этот проект оказался главным для нас. Здесь были выработаны многие основополагающие положения.
[январь 2006 - ...] - проект АОТ
[январь 2003 – декабрь 2005] - проект АОТ
[сентябрь 2001 – декабрь 2002] - проект АОТ
[2000 – май 2001] - проект ДИАЛИНГ
[2000] - проект ДИАЛИНГ
[1999] - проект ДИАЛИНГ
[1998] - проект ПОЛИТЕКСТ
[1997 и до 1997] - проект ПОЛИТЕКСТ
Компания "Интеллектуальный Партнер" (русская морфология, Windows).
Компания @Маil.ru (русская морфология, FreeBSD).
Лукойл-Информ (русская и английская морфология, система добавления, Linux).
Проект ВААЛ (синтаксис и тезаурусы, Windows).
Рос НИИ Искусственного интеллекта (русская и английская морфология, Windows).
Компания Megaputer Intelligence (русская и английская морфология, Windows).
Академический проект развития семантического словаря под руководством д.т.н. Н.Н.Леонтьевой в НИВЦ МГУ (синтаксис и поверхностная семантика, Windows).
о нас продукты скачать технологии демо поиск ^
Домашняя страница Виктора Сокирко и Лидии Ткаченко (партизанское кино) .
Всероссийская доска позора, википедия политической оппозиции