Библиотека для разработчика информационно-поисковых систем RCO Text Categorization Engine позволяет решать следующие задачи:
На основании лексических профилей эффективно определять принадлежность текста к заданному множеству категорий;
Для каждого термина из лексических профилей, обнаруженного в тексте, получить количество его вхождений в текст, а также позиции терминов в тексте.
К отличительным возможностям библиотеки следует отнести:
Возможности по очистке web-страниц:
Автоматическая коррекция кодовой страницы русского языка;
Удаление навигационных элементов сайта, загромождающих страницу.
Гибкие настройки идентификации терминов в тексте:
В точности, как написано в профиле;
С учетом всех словоформ при помощи морфоанализатора русского языка;
Явно задав все требуемые к отождествлению словоформы.
Задание терминов в виде поисковых выражений с использованием следующих операторов:
Слова, словосочетания;
Задание расстояния между словами;
Логические операторы – «И», «ИЛИ», «И НЕ».
Специальная обработка отдельных терминов:
Термин обязательно должен встретиться для отнесения текста к категории;
Термин не должен встретиться для отнесения текста к категории.