EngCom/ЯзыковыеСловари
Языковые словари
Существующие проблемы
- Существует достаточно большое количество форматов баз.
- В src.rpm-пакетах в основном отсутствуют исходники словарей.
Ну к примеру тот же webster для dict. В src.rpm лежат сразу dict-файлы для словаря, хотя исходно он в другом формате.
- Программы работы со словарями используют, как правило, только свой формат
Я собрал для Сизифа WordNet, foldoc и ещё веду engcom в трёх форматах (mova, dict, stardict); базы первых двух достаточно
объёмны, и дублировать их совсем не хочется, а особенно не хочется дублировать src.rpm под разные форматы.
Для решения проблем нужно иметь в наличии некий исходный формат словаря (не принципиально какой), главное в нём не было потери
исходной информации, и существовали скрипты преобразования в остальные форматы, которые применяются (в частности, для которых
есть оболочки в Сизифе).
Идеальным (по экономии места) был бы вариант развития плагинов к словарям, позволяющих использовать "чуждые" форматы как свои, я
уж не говорю о том, что форматы некоторых словарей могли бы и вовсе не различаться...
libunidict
Примерный состав библиотеки
- универсальный интерфейс к словарным базам
- плагины для поддержки различных форматов
- см. slowo и проект Словник
Словарные базы в Сизифе
- startdict
- (к нему Мюллер, словники, engcom, foldoc)
- dict
- (Мюллер, словники, Webster, Даль, engcom, eng-deu)
- multitran (консольная оболочка к нему в libmt-utils)
- со словарями проекта www.multitran.ru
- mova
- (Мюллер, engcom)
- wordnet (графическая оболочка к нему в wordnet-tk)
- ksocrat KSocrat is the simple English/Russian and Russian/English dictionary for KDE
- ( Словарная база двухсторонняя. Но это не полноценный словарь, а слова со скудными вариантами перевода
- Dictionary bases are provided by Arsenal Company for KSocrat only.
- Dictionary bases (C) 1996 Arsenal Company, www.ars.ru, www.arssoft.com.
Разное
- Информация немного устарела (июнь 2004)
- Надо смотреть на проекты типа wiktionary.org
- Есть словник (где ссылка?)
- См. архив рассылки по данному контексту