70 лет за зелёных человечков

Настольный поиск

Автор: Евгений Яворских
Опубликовано в журнале "Домашний компьютер" №8 от 21 июля 2005 года.

Вроде бы и немного по нынешним временам — «каких-то» 160 гигабайт дискового пространства. Да вот незадача — «лишняя» сотня этих самых «гектаров» нередко вынуждает тратить массу времени на поиск нужного документа: поди, запомни, куда ты сохранил очередной программный мануал в PDF-формате или несколько веб-страниц с интересной информацией. Хорошо хоть исходные тексты статей всегда хранятся в надежном месте…

Действительно, за пару-тройку лет в дисковых разделах скапливаются, помимо всевозможного хлама, тысячи файлов, весьма востребованных в самый неподходящий момент времени. Для начала потребуется вспомнить, в каком файловом формате содержался текст, что вы немедленно захотели получить: возможно, это HTML-страница, заботливо сохраненная несколько месяцев назад, или «кладезь человеческой мудрости» расположен в DOC- или RTF-файле. Все было бы просто замечательно, если бы искомый файл носил русскоязычное имя, соответствующее нашему запросу. Но, как известно, жизнь редко балует счастливыми совпадениями. В особенности, если запрашиваемая информация не имеет ничего общего с названием документа, а «прописана» где-то в текстовых дебрях неизвестного файла. Разумеется, можно заняться созданием некой картотеки, где с бюрократической скрупулезностью отмечать все файлы и документы с текстовой информацией, но… впрочем, и я не готов к такому подвигу.

О системном поисковом инструменте (Пуск > Поиск) можно говорить лишь в контексте традиционной «функциональности», присущей большинству инструментов от Microsoft. Никто не спорит — можно отыскать файл по имени и расширению или группу файлов по маске, но, увы, не всегда. Типичный случай: для увеличения производительности Windows мы отключаем индексацию диска и ждем до второго пришествия, пока система будет тупо перебирать все файловое добро. К слову сказать, в «умолчальном» варианте системного поисковика нас будет сопровождать этакий веселый щенок. По-моему, очень символичный персонаж — какова «ищейка», таковы и возможности поиска…

Поиск информации по ключевому слову в Windows тоже не блещет эффективностью: попробуйте ввести в крохотное поле поиска запрос из двух-трех предложений — дело даже не во времени, затраченном на поиск, а в том, что решительно невозможно задать определенный каталог, где обретается искомое. Ко всему прочему, моя англоязычная Windows XP напрочь игнорирует мало-мальски сложные русскоязычные словосочетания1. Выход есть: использование программных решений на базе поисковых технологий. Схема работы таких поисковых систем, в первом приближении, довольно проста: поиск по фразе с учетом всех синонимов и словоформ.

Однако есть одно «но»: поиск по нескольким словам или крохотной фразе никогда не даст точного результата среди найденных документов. А поиск по длиннющей фразе (например, в половину документа) в существующих приложениях займет слишком много времени и весьма привередлив к ресурсам компьютера. Например, при вводе запроса в виде обычного документа, содержащего около 2000 уникальных слов, поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), а также вывод списка найденных документов займет несколько десятков минут. Вы согласитесь столько ждать? В итоге получается своеобразная дилемма: при хорошей скорости «хромает» качество поиска; при точных и адекватных результатах понадобится уйма времени и системно-аппаратных ресурсов.

Сегодняшний «чемпионат по настольному поиску» позволит выбрать оптимальный продукт в соответствии с личными предпочтениями и нуждами. Исходные условия: индексация и последующий поиск в логическом разделе, содержащем каталоги с текстами статей, всевозможных «Руководств пользователя» в PDF-формате и массой HTML-страниц. Там же разместились папки с архивами сообщений почтовых клиентов Outlook Express и The Bat2. Попутно программам будут предложены архивы с офисными документами и — не удивляйтесь! — звуковые файлы формата MP3 с ID3-тегами3.

Собачья радость

Мне до сих пор неловко за тот щенячий восторг, с каким я загружал бесплатную версию знаменитой «Ищейки 4.5». Позарившись на дармовую «косточку», я получил крайне ограниченную версию программы: мне предложили индексацию и поиск лишь в трех файловых форматах: TXT, DOC и HTM/HTML, и создание единственной базы данных. Сам виноват — нужно было заранее взглянуть на программные возможности. Пришлось вызвать «пса» по кличке «Ищейка Проф» ($15). Четыре сотни рублей по нашим временам — не столь большие деньги. «Ищейка Проф» умеет «вынюхивать», помимо упомянутых, расширения DOT (шаблоны MS Word) вкупе со старым добрым RTF.

На этом выучка «Ищейки Проф» заканчивается. Однако, радостно тявкнув, «собачка» поведала о своих дополнительных талантах, если «скормить» животине дополнительные модули. Тогда все станет действительно по-взрослому — это вам не глупый щенок из системного поисковика: без проблем станет индексироваться и обнаруживаться текстовая информация в файлах ASP и Adobe Acrobat (PDF), в презентациях MS PowerPoint и скучнейших документах MS Excel4. Ко всему прочему, «Ищейка» расправится с архивным расширением ZIP, справочным форматом CHM, ID3-тэгами MP3-файлов и PHP-документами. Правда, за модуль с поддержкой одного формата придется отдать еще 6 долларов (20 баксов чохом за весь комплект плагинов) или заказать «Ищейку Проф Deluxe» за $29. Что же, придется пожертвовать ради объективного теста. Правда, вызывает недоумение дата выпуска этих модулей — 2002 год…

Первое, что я бы посоветовал сделать по окончании установки, это отказаться от предложения создать новую зону поиска и выбрать заранее созданную папку для хранения базы проиндексированных документов (Опции > Индекс > Папка индексных файлов) — рис. 1. Дело в том, что по умолчанию «Ищейка» горит желанием немедленно проиндексировать указанные разделы, создав индексную базу в программном каталоге. При переустановке системы гораздо проще подсунуть «Ищейке» готовую базу индексации. В моем случае использовался логический диск F:, где я отключил поиск в каталогах с рисунками и файлами, поиск в которых не имеет смысла (рис. 2): время индексации в этом случае уменьшится. Затем «Ищейке» следует дать команду относительно файловых расширений для индексации. Помните, изначально отключена индексация почтовых форматов EML и MSG, ZIP-архивов и некоторых других (рис. 3). В этом случае выбор форматов остается за «хозяином».

«Ищейка» шустро просчитала индексируемые документы (15968 штук суммарным объемом 1,75 Гбайта), после чего немедля приступила к индексации (рис. 4), которая продолжалась 24 минуты. Размер индексной базы составил 144 Мбайта. Обратите внимание на эти цифры: эти данные будут, в числе прочих параметров, определять нашего поискового лидера.

Что же, проверим хваленый «нюх»: в качестве жертвы выберем название цикла статей вашего покорного слуги — «Антивирусные записки». Вводим в поле запроса, командуем программе «Ищи!» и почти мгновенно получаем результаты поиска: название и расположение документов с этим словосочетанием, дату и время создания опусов, а также исходный текст (рис. 5).

Усложним задачу, и «натравим» программу на поиск ID3-тэгов в MP3-файлах. В одном из каталогов хранился альбом «Аквариума» с русскими тэгами. Поиск по русским названиям композиций, равно как по имени «Борис Гребенщиков» не дал результата. В чем дело? Пробую ввести знакомые всем буквы BG, после чего получаю массу ссылок на документы с чужой критикой в адрес Билла Гейтса и… единственной MP3-шкой, в тэге которой содержались искомые буквы. Действительно, Гребенщиков там и вправду повествовал об экзистенции, но тэги были выполнены латиницей! Стало быть, о поиске в русских тэгах можно забыть.

Еще один «садистский» метод удался на славу: решаю запросить поиск по вступлению к своей статье «Второе пришествие SPасителя» (см. ДК, #10, 2004 г.): три сотни печатных знаков. Увы, «Ищейка», поджав хвост, скорбно заскулила, рапортуя о нулевом результате. Расширенный поиск также не привел к успеху (рис. 6). Вот вам и хваленое собачье чутье. Безусловно, «Ищейка Проф Deluxe» обладает и положительными качествами: создание неограниченного количества зон поиска («Менеджер зон поиска») и отсутствие лимита на число документов в одной зоне поиска; возможность обновления поисковых баз по расписанию и вручную, а также создания «Избранных запросов» и «Популярных запросов», что обеспечивает высокую эффективность при работе с офисными документами. Но главный плюс, на мой взгляд, — крайний аскетизм в отношении системных ресурсов: «Ищейка» поедает всего-навсего 3 мегабайта оперативной памяти. Однако на сайте разработчиков вы не найдете демо-версии «Ищейки Проф», не говоря уже о «Deluxe»-модификации. Может быть, способности человека лучше собачьего нюха? Посмотрим, что скажет бывалый искатель.


1 А что прикажете делать корпоративному сектору, работающему с гигантскими базами данных и впадающему в ступор при попытке найти очередной «шедевр» бухгалтерской мысли?

2 Есть у меня такая «странность»: хранить архивы электронных писем в другом дисковом разделе.

3 Специальная информация о музыкальном произведении, авторе, названии альбома, дате выпуска, жанре и т. п., «зашитая» в MP3-файл.

4 Модуль для документов Microsoft Excel не работает с документами, защищенными паролем и содержащими связанные таблицы.


стр.1 | стр.2 | стр.3



Журнал "Домашний компьютер" №8-2005 Читайте на сайте тему номера Search и другие статьи из журнала "Домашний компьютер" №8 (110) от 21 июля 2005 года.

Версия для печати | Обсудить на форуме


Автор: Евгений Яворских.
Рубрика: COVER STORY.

Ранее в рубрике "COVER STORY"

Ищущий да обрящет!

В это трудно поверить и еще труднее представить, но каких-то пятнадцать лет назад глобальной компьютерной сети в том виде, в каком она известна всем нам, не существовало.

Настольный поиск

Вроде бы и немного по нынешним временам — «каких-то» 160 гигабайт дискового пространства. Да вот незадача — «лишняя» сотня этих самых «гектаров» нередко вынуждает тратить массу времени на поиск нужного документа...


Журнал "ДК"

"Домашний Компьютер" #5 (143)

Журнал "Домашний компьютер" №5-2008 Тема номера: "Цифровые ассистенты"

В розничной продаже с 07 мая 2008 года.

PDF-архив журнала "ДК"


Компьюлента

Подписка на статьи ДК-HiFi
Введите ваш e-mail:

О ЖУРНАЛЕ|О САЙТЕ|КОНТАКТЫ|
© ООО "Компьютерра-онлайн" 2003-2006.
При использовании материалов сайта ссылка на "ДК" обязательна.
При использовании материалов бумажного издания ссылка на источник обязательна.
Техподдержка сайта: websupport@computerra.ru
Работает на <Битрикс: Управление сайтом>
Почта защищена сервером СПАМОРЕЗ

Fatal error: require() [function.require]: Failed opening required 'class.getcpr.php' (include_path='.:/usr/local/lib/php') in /opt/wwwroot/shared/bitrix/php_interface/nd/epilog_main.php on line 447