Тихая революция
Российская линейка продуктов SearchInform незаменима в
любом секторе, будь то корпоративная сеть предприятия или простой домашний
компьютер. Десктопная версия (2,9 Мбайта) предлагается в двух модификациях:
Standard (1500 руб.) и Professional (3000 руб.). Функциональные отличия обычной
версии от профессиональной: нет возможности слияния и дефрагментации созданных
индексов, ограничения поиска в источниках данных и отсутствие рубрикатора
документов. Для особо скаредных граждан предлагается бесплатная версия, умеющая
создавать только один индекс.
Фирменная технология7 позволяет работать с различными источниками информации,
которая может содержаться не только в файловых форматах (включая PDF, HTM и HTML),
но и в базах данных большинства распространенных информационных систем (Access,
MS SQL, Oracle и SQL). Для вящей конкретизации поиска наличествует функция
использования списков синонимов и выделения так называемых «важных слов».
По окончании установки и регистрации первым делом нам предложат загрузить и
установить фильтр для индексации и поиска в PDF-документах вкупе с русскоязычной
морфологической базой (рис. 20). Дело в том, что использование морфологии — один
из важнейших приемов интеллектуального поиска текста, поскольку этот режим
позволяет ввести в поисковую строку одно слово, а поиск будет осуществляться по
всем его словоформам (например: ложка, ложкой, ложки, ложечки). Таким образом,
жертвы на входящий трафик заумной морфологической субстанции более чем
оправданны (использование морфологии включается в «Менеджере Индексов»).
Пришла пора создавать индексационные базы (программа называет их «индексами»),
без которых поиск становится бессмысленным: Менеджер индексов > Создание индекса
(рис. 21). SearchInform позволяет выбирать папку для баз индекса, равно как
исключать из области поиска ненужные каталоги8. Не забудьте еще раз подумать о
целесообразности использования морфологических баз — по умолчанию переключатель
«Использовать морфологию» отключен, равно как и индексация во внешних базах
данных (уже упоминавшиеся Access и MS SQL Server, попортивший мне кровь при
запуске «Следопыта»).
Обратите внимание на кнопку «Настройка» диалога создания нового индекса — по
умолчанию программа начнет индексацию всех дисковых разделов, что увеличивает
время создания базы и ее размер. Выберем только необходимое (рис. 22). А далее
остается ждать окончания процесса индексации. Разумеется, нет нужды создавать
единственную базу, где будут свалены в кучу и офисные документы, и
HTML-страницы. При необходимости точно так же создаются дополнительные индексы,
подключаемые командой «Смонтировать индекс».
Процесс индексирования весьма нагляден и демонстрирует не только скорость, но и
количество обработанных документов, и число уникальных слов, по которым будет
осуществляться поиск. В конечном итоге, данный раздел, содержащий более 20 000
документов совокупным объемом около 580 Мбайт, был проиндексирован всего за 12
минут; объем проиндексированного контента составил 72 Мбайта (рис. 23). Да,
SearchInform не индексировал графические и звуковые файлы, но от него это и не
требовалось. Зато несколько десятков мегабайт индексационных баз смотрятся куда
как выигрышно на фоне почти полугигабайта индексных файлов поисковика от Google.
Теперь заставим SearchInform отработать свою цену: обычный вариант поиска
(вкладка «Поиск текста») по сочетанию «Антивирусные записки» выдал огромное
количество документов, содержащих, в той или иной мере, искомые слова. Впрочем,
нужные документы оказалась в первой пятерке (рис. 24). Если помните, Google
Desktop Search «спекся» при запросе из 2000 знаков. Честное слово, мне надоел
собственный гуманизм9 по отношению к участникам софт-ринга: даешь запрос из трех
тысяч знаков! Неприметная вкладка «Поиск похожих», как выяснилось, обладает
уникальной особенностью: в отличие от стандартного фразового поиска, здесь не
требуется заранее подбирать ключевые слова — поиск осуществляется по всему
документу в целом. Ну-с, любезный, получите три тысячи символов из начала статьи
«Второе пришествие SPасителя». Предвкушая фиаско софтины, радостно потираю руки,
но, увы, конфуз испытал ваш покорный слуга: программа через пару секунд выдала
абсолютно точную ссылку на документ, причем без всякой дополнительной «шелухи»
(рис. 25). Не испугал программу и поиск в архивах. Честно говоря, я не стал
использовать секундомер для определения разницы во времени поиска среди обычных
файлов и архивированных: практически один и тот же очень быстрый результат.
Дальнейшее «глумление» над софтиной порадовало старого софтверного волка:
изменялся текст запроса, в который добавлялись произвольные фрагменты
откровенной абракадабры, затем фразы менялись местами. Очень уж мне хотелось
«убить» программу, но мой порыв остался неудовлетворенным: даже в этом случае
нужный документ находился. Ко всему прочему, работа программы практически не
сказывается на быстродействии системы.
Однако создание одного или нескольких индексов для действительно качественного
поиска недостаточно. И чтобы максимально использовать возможности SearchInform,
потребуется более подробное знакомство с синонимами, стоп-словами и «важными
словами» (программные термины). Более подробно об этих «хитрых зверьках» вы
сможете прочесть в программной «Справке».
Раздаем слонов
Эта процедура не вызвала бурных дебатов в силу талантов наших конкурсантов. Если
вам идеологически чужда покупка программного обеспечения, и вы не мыслите поиск
без участия MP3, видео и картинок, ваш выбор — бесплатный Google Desktop Search.
Правда, за отсутствие материальных издержек придется расплатиться колоссальным
объемом индексных файлов и весьма длительной процедурой индексации. Если вас
интересует паталогическая точность поисковых результатов вкупе с возможностью
создания рубрик документации, рекомендуем последнюю версию SearchInform.
Немаловажным моментом станет «детское» время индексации и крайне демократичный
размер созданных индексных баз.
Ищущий да обрящет.
7 Разработанная на основе математической модели анализа структуры документа и
выбора похожих слов, словосочетаний и массивов текста.
8 Скажите на милость, зачем мне индексировать файлы Corel Draw и каталоги с
«хозяйством» виртуальных машин?
9 Причем, совершенно неоправданный.