тест: долгоиграющий гаджет

Тихая революция

Российская линейка продуктов SearchInform незаменима в любом секторе, будь то корпоративная сеть предприятия или простой домашний компьютер. Десктопная версия (2,9 Мбайта) предлагается в двух модификациях: Standard (1500 руб.) и Professional (3000 руб.). Функциональные отличия обычной версии от профессиональной: нет возможности слияния и дефрагментации созданных индексов, ограничения поиска в источниках данных и отсутствие рубрикатора документов. Для особо скаредных граждан предлагается бесплатная версия, умеющая создавать только один индекс.

Фирменная технология7 позволяет работать с различными источниками информации, которая может содержаться не только в файловых форматах (включая PDF, HTM и HTML), но и в базах данных большинства распространенных информационных систем (Access, MS SQL, Oracle и SQL). Для вящей конкретизации поиска наличествует функция использования списков синонимов и выделения так называемых «важных слов».

По окончании установки и регистрации первым делом нам предложат загрузить и установить фильтр для индексации и поиска в PDF-документах вкупе с русскоязычной морфологической базой (рис. 20). Дело в том, что использование морфологии — один из важнейших приемов интеллектуального поиска текста, поскольку этот режим позволяет ввести в поисковую строку одно слово, а поиск будет осуществляться по всем его словоформам (например: ложка, ложкой, ложки, ложечки). Таким образом, жертвы на входящий трафик заумной морфологической субстанции более чем оправданны (использование морфологии включается в «Менеджере Индексов»).

Пришла пора создавать индексационные базы (программа называет их «индексами»), без которых поиск становится бессмысленным: Менеджер индексов > Создание индекса (рис. 21). SearchInform позволяет выбирать папку для баз индекса, равно как исключать из области поиска ненужные каталоги8. Не забудьте еще раз подумать о целесообразности использования морфологических баз — по умолчанию переключатель «Использовать морфологию» отключен, равно как и индексация во внешних базах данных (уже упоминавшиеся Access и MS SQL Server, попортивший мне кровь при запуске «Следопыта»).

Обратите внимание на кнопку «Настройка» диалога создания нового индекса — по умолчанию программа начнет индексацию всех дисковых разделов, что увеличивает время создания базы и ее размер. Выберем только необходимое (рис. 22). А далее остается ждать окончания процесса индексации. Разумеется, нет нужды создавать единственную базу, где будут свалены в кучу и офисные документы, и HTML-страницы. При необходимости точно так же создаются дополнительные индексы, подключаемые командой «Смонтировать индекс».

Процесс индексирования весьма нагляден и демонстрирует не только скорость, но и количество обработанных документов, и число уникальных слов, по которым будет осуществляться поиск. В конечном итоге, данный раздел, содержащий более 20 000 документов совокупным объемом около 580 Мбайт, был проиндексирован всего за 12 минут; объем проиндексированного контента составил 72 Мбайта (рис. 23). Да, SearchInform не индексировал графические и звуковые файлы, но от него это и не требовалось. Зато несколько десятков мегабайт индексационных баз смотрятся куда как выигрышно на фоне почти полугигабайта индексных файлов поисковика от Google.

Теперь заставим SearchInform отработать свою цену: обычный вариант поиска (вкладка «Поиск текста») по сочетанию «Антивирусные записки» выдал огромное количество документов, содержащих, в той или иной мере, искомые слова. Впрочем, нужные документы оказалась в первой пятерке (рис. 24). Если помните, Google Desktop Search «спекся» при запросе из 2000 знаков. Честное слово, мне надоел собственный гуманизм9 по отношению к участникам софт-ринга: даешь запрос из трех тысяч знаков! Неприметная вкладка «Поиск похожих», как выяснилось, обладает уникальной особенностью: в отличие от стандартного фразового поиска, здесь не требуется заранее подбирать ключевые слова — поиск осуществляется по всему документу в целом. Ну-с, любезный, получите три тысячи символов из начала статьи «Второе пришествие SPасителя». Предвкушая фиаско софтины, радостно потираю руки, но, увы, конфуз испытал ваш покорный слуга: программа через пару секунд выдала абсолютно точную ссылку на документ, причем без всякой дополнительной «шелухи» (рис. 25). Не испугал программу и поиск в архивах. Честно говоря, я не стал использовать секундомер для определения разницы во времени поиска среди обычных файлов и архивированных: практически один и тот же очень быстрый результат.

Дальнейшее «глумление» над софтиной порадовало старого софтверного волка: изменялся текст запроса, в который добавлялись произвольные фрагменты откровенной абракадабры, затем фразы менялись местами. Очень уж мне хотелось «убить» программу, но мой порыв остался неудовлетворенным: даже в этом случае нужный документ находился. Ко всему прочему, работа программы практически не сказывается на быстродействии системы.

Однако создание одного или нескольких индексов для действительно качественного поиска недостаточно. И чтобы максимально использовать возможности SearchInform, потребуется более подробное знакомство с синонимами, стоп-словами и «важными словами» (программные термины). Более подробно об этих «хитрых зверьках» вы сможете прочесть в программной «Справке».

Раздаем слонов

Эта процедура не вызвала бурных дебатов в силу талантов наших конкурсантов. Если вам идеологически чужда покупка программного обеспечения, и вы не мыслите поиск без участия MP3, видео и картинок, ваш выбор — бесплатный Google Desktop Search. Правда, за отсутствие материальных издержек придется расплатиться колоссальным объемом индексных файлов и весьма длительной процедурой индексации. Если вас интересует паталогическая точность поисковых результатов вкупе с возможностью создания рубрик документации, рекомендуем последнюю версию SearchInform. Немаловажным моментом станет «детское» время индексации и крайне демократичный размер созданных индексных баз.

Ищущий да обрящет.


7 Разработанная на основе математической модели анализа структуры документа и выбора похожих слов, словосочетаний и массивов текста.

8 Скажите на милость, зачем мне индексировать файлы Corel Draw и каталоги с «хозяйством» виртуальных машин?

9 Причем, совершенно неоправданный.


стр.1 | стр.2 | стр.3



Журнал "Домашний компьютер" №8-2005 Читайте на сайте тему номера Search и другие статьи из журнала "Домашний компьютер" №8 (110) от 21 июля 2005 года.

Версия для печати | Обсудить на форуме


Автор: Евгений Яворских.
Рубрика: COVER STORY.

Ранее в рубрике "COVER STORY"

Ищущий да обрящет!

В это трудно поверить и еще труднее представить, но каких-то пятнадцать лет назад глобальной компьютерной сети в том виде, в каком она известна всем нам, не существовало.

Настольный поиск

Вроде бы и немного по нынешним временам — «каких-то» 160 гигабайт дискового пространства. Да вот незадача — «лишняя» сотня этих самых «гектаров» нередко вынуждает тратить массу времени на поиск нужного документа...


Журнал "ДК"

"Домашний Компьютер" #5 (143)

Журнал "Домашний компьютер" №5-2008 Тема номера: "Цифровые ассистенты"

В розничной продаже с 07 мая 2008 года.

PDF-архив журнала "ДК"


Компьюлента

Подписка на статьи ДК-HiFi
Введите ваш e-mail:

О ЖУРНАЛЕ|О САЙТЕ|КОНТАКТЫ|
© ООО "Компьютерра-онлайн" 2003-2006.
При использовании материалов сайта ссылка на "ДК" обязательна.
При использовании материалов бумажного издания ссылка на источник обязательна.
Техподдержка сайта: websupport@computerra.ru
Работает на <Битрикс: Управление сайтом>
Почта защищена сервером СПАМОРЕЗ

Fatal error: require() [function.require]: Failed opening required 'class.getcpr.php' (include_path='.:/usr/local/lib/php') in /opt/wwwroot/shared/bitrix/php_interface/nd/epilog_main.php on line 447