Re[5]: Программа-библиотекарь
От: Alex Mova  
Дата: 17.11.04 13:40
Оценка:
Здравствуйте, Зверёк Харьковский, Вы писали:

ЗХ>Да, в общем, текст из PDF уже извлекается (к слову — кошмарнейший геморрой).

ЗХ>То есть осталось определить, где там автор, а где — название
А что там сложного то, определить автора — смотришь поле Author, название — Title. Это наверное самое простое, что есть в PDFе.

WBR, Александр Мова
Re[6]: Программа-библиотекарь
От: Зверёк Харьковский  
Дата: 17.11.04 13:44
Оценка:
Здравствуйте, Alex Mova, Вы писали:

ЗХ>>Да, в общем, текст из PDF уже извлекается (к слову — кошмарнейший геморрой).

ЗХ>>То есть осталось определить, где там автор, а где — название
AM>А что там сложного то, определить автора — смотришь поле Author, название — Title. Это наверное самое простое, что есть в PDFе.
Ага, Алекс, вот Вы мне и скажите, как профессионал — в каком проценте PDF-ов прописаны метаданные? только честно!
сам слушаю и вам рекомендую: 04 — Моя квартира
FAQ — це мiй ай-кью!
Re: Программа-библиотекарь
От: dobrik Израиль  
Дата: 17.11.04 14:15
Оценка:
Здравствуйте, Зверёк Харьковский, Вы писали:

ЗХ>День добрый, господа.

ЗХ>Зародилась такая идея:
ЗХ>у меня на винте валяется ок. 3 Гиг ОЧЕНЬ НУЖНОЙ И ПОЛЕЗНОЙ электронной документации.
ЗХ>Её КПД близок к 0, поскольку даже если я знаю, что ЭТО ГДЕ-ТО БЫЛО, найти что-нибудь в этой груде все равно очень тяжело
ЗХ>Все прошлое воскресенье я убил на то, чтобы хоть-как-то упорядочить это дело по папочкам. Немножко полегчало, но, прямо скажем, не сильно. это присказка.
ЗХ>В связи с этим появилась МЫСЛЬ (и я ее думаю): сделать программу-библиотекарь, которая хранила бы все эти доки и инфу о них (автор, название и пр.), позволяла бы удобно структурировать, быстро (и, возможно, по нескольку сразу) добавлять. Хранила бы доки заархивированными с разархивированием "на лету" прозрачно для юзера. Позволяла бы выделять часть библиотеки в самостоятельную библиотеку (напр., выделить всю вету "РНР", сжать и отправить другу по почте). Разбирала бы наиболее известные форматы и сама доставала бы из них Заголовок, автора, ключевые слова. Дальше (в перспективе) неплохо бы иметь индексацию и крутой поиск, автоматическое составление рефератов и пр. радости жизни.

ЗХ>убедительная просьба высказаться по следующим вопросам:

ЗХ>а) кому это надо?
ЗХ>б) есть ли что-то похожее, с чем было бы правда УДОБНО работать?
ЗХ>в) ваши требования к такой проге (если она вам, конечно, интересна)
ЗХ>г) вольная тема

ЗХ>ЗЫ. задумывается как шаровара. всем высказавшим ценные идеи (в последствии — так же и принявшим участие в тестировании) — естессно, ключик.


ЗХ>Спасибо за внимание


http://www.exlibris.co.il
dobrik
Re[7]: Программа-библиотекарь
От: Alex Mova  
Дата: 17.11.04 14:35
Оценка:
Здравствуйте, Зверёк Харьковский, Вы писали:

ЗХ>Ага, Алекс, вот Вы мне и скажите, как профессионал — в каком проценте PDF-ов прописаны метаданные? только честно!

Честно, как на духу В процентах считать не буду, да и нет у меня сейчас всех PDFов под рукой, но судя по тому, что прошло через саппорт (тысяч пять документов), полностью заполненный информационный каталог бывает нечасто. Дело в том, что это зависит от программы, которой генерируется PDF, а большинство файлов (по количеству) это прогнанные через Гостскрипт постскрипты неизвестного происхождения или вообще сгенеренные отчеты из базы. У таких файлов чаще всего ничего не заполнено. Если же PDF — это распечатанный документ из Ворда, то чаще всего есть и название, и автор, и остальное.
Мне кажется, что если в документе не прописаны автор и название, то не стоит пытаться определять их по косвенным признакам.

WBR, Александр Мова
Re[8]: Программа-библиотекарь
От: Зверёк Харьковский  
Дата: 17.11.04 15:13
Оценка:
Здравствуйте, Alex Mova, Вы писали:

AM>Здравствуйте, Зверёк Харьковский, Вы писали:


ЗХ>>Ага, Алекс, вот Вы мне и скажите, как профессионал — в каком проценте PDF-ов прописаны метаданные? только честно!

AM>Честно, как на духу В процентах считать не буду, да и нет у меня сейчас всех PDFов под рукой, но судя по тому, что прошло через саппорт (тысяч пять документов), полностью заполненный информационный каталог бывает нечасто. Дело в том, что это зависит от программы, которой генерируется PDF, а большинство файлов (по количеству) это прогнанные через Гостскрипт постскрипты неизвестного происхождения или вообще сгенеренные отчеты из базы. У таких файлов чаще всего ничего не заполнено.
Во!

AM>Если же PDF — это распечатанный документ из Ворда, то чаще всего есть и название, и автор, и остальное.

Угу. Следующий вопрос: в каком проценте документов Ворда....

AM>Мне кажется, что если в документе не прописаны автор и название, то не стоит пытаться определять их по косвенным признакам.

Да, понимаете, если я этого не сделаю, то грош цена всей моей затее.
Без пакетной обработки больших массивов книг с автоизвлечением метаданных —
сам слушаю и вам рекомендую: 04 — Моя квартира
FAQ — це мiй ай-кью!
Re[2]: Программа-библиотекарь
От: Зверёк Харьковский  
Дата: 17.11.04 15:24
Оценка:
Здравствуйте, dobrik, Вы писали:

D>http://www.exlibris.co.il

Угу, по описанию похоже.
Вот бы это дело еще вживую посмотреть Никто не видел?
сам слушаю и вам рекомендую: 04 — Моя квартира
FAQ — це мiй ай-кью!
Re[9]: Программа-библиотекарь
От: Alex Mova  
Дата: 17.11.04 16:51
Оценка:
Здравствуйте, Зверёк Харьковский, Вы писали:

ЗХ>Угу. Следующий вопрос: в каком проценте документов Ворда....

Ну я могу собрать такую статистику, если так уж нужно, но не прям сейчас, пару часов на это нужно. Напишите в приват на следующей неделе, чтоб не забыл.

AM>>Мне кажется, что если в документе не прописаны автор и название, то не стоит пытаться определять их по косвенным признакам.

ЗХ>Да, понимаете, если я этого не сделаю, то грош цена всей моей затее.
ЗХ>Без пакетной обработки больших массивов книг с автоизвлечением метаданных —
Если я правильно понимаю смысл библиотечных каталогов, да и каких бы то ни было каталогов вообще, главное там — точность информации. Не гипотеза, а факт. Извлечение хоть названия, хоть автора — любой информации — достоверно будет только если извлекать из места, специально предназначенного для такой информации. Программа, которая строит догадки, где тут в тексте название, а где фамилия автора — в чем ее смысл?

WBR, Александр Мова
Re[10]: Программа-библиотекарь
От: Зверёк Харьковский  
Дата: 17.11.04 17:02
Оценка:
Здравствуйте, Alex Mova, Вы писали:

AM>Здравствуйте, Зверёк Харьковский, Вы писали:


ЗХ>>Угу. Следующий вопрос: в каком проценте документов Ворда....

AM>Ну я могу собрать такую статистику, если так уж нужно, но не прям сейчас, пару часов на это нужно. Напишите в приват на следующей неделе, чтоб не забыл.
ОК, спасибо.
Но, кстати, это был риторический вопрос
Но предложением я воспользуюсь, естественно

AM>>>Мне кажется, что если в документе не прописаны автор и название, то не стоит пытаться определять их по косвенным признакам.

ЗХ>>Да, понимаете, если я этого не сделаю, то грош цена всей моей затее.
ЗХ>>Без пакетной обработки больших массивов книг с автоизвлечением метаданных —
AM>Если я правильно понимаю смысл библиотечных каталогов, да и каких бы то ни было каталогов вообще, главное там — точность информации. Не гипотеза, а факт. Извлечение хоть названия, хоть автора — любой информации — достоверно будет только если извлекать из места, специально предназначенного для такой информации. Программа, которая строит догадки, где тут в тексте название, а где фамилия автора — в чем ее смысл?
Ну, как бы юз-кейс такого плана: у меня есть папочка с файлами. Разными: html, doc, chm, pdf, ...
Заведомо бОльшая часть из них не имеет корректно прописанных метаданных (разве что html довольно часто выпадает из этой закономерности).

Действия пользователя?
Вариант раз: добавить файл — прописать все метаданные — добавить следующий — прописать все — на каком файле юзер пошлет программу в лес?
Вариант два: добавить все скопом — а потом когда нибудь, в свободное время, "подписать" их — получим полный каталог неподписанного непонять чего.
Вариант три: указать, какие файлы добавляются — программа показывает табличку "файл — 'угаданные' метаданные" — подтверждаем или редактируем — все добавлено. При этом, скажем, если мы хотим отредактировать поле "Автор", так там будет возможность выбрать одну из 20 первых строчек документа — чтоб не вводить автора руками.

ы?

Я подозреваю, что в бОльшей части случаев таки да, можно корректно угадать. А в остальных — пользователь не будет на нас в обиде....
сам слушаю и вам рекомендую: 04 — Моя квартира
FAQ — це мiй ай-кью!
Re[11]: Программа-библиотекарь
От: Alex Mova  
Дата: 17.11.04 17:51
Оценка:
Здравствуйте, Зверёк Харьковский, Вы писали:

AM>>Если я правильно понимаю смысл библиотечных каталогов, да и каких бы то ни было каталогов вообще, главное там — точность информации. Не гипотеза, а факт. Извлечение хоть названия, хоть автора — любой информации — достоверно будет только если извлекать из места, специально предназначенного для такой информации. Программа, которая строит догадки, где тут в тексте название, а где фамилия автора — в чем ее смысл?

ЗХ>Ну, как бы юз-кейс такого плана: у меня есть папочка с файлами. Разными: html, doc, chm, pdf, ...
ЗХ>Заведомо бОльшая часть из них не имеет корректно прописанных метаданных (разве что html довольно часто выпадает из этой закономерности).

ЗХ>Действия пользователя?

ЗХ>Вариант раз: добавить файл — прописать все метаданные — добавить следующий — прописать все — на каком файле юзер пошлет программу в лес?
Не знаю, зависит от того, что юзер хочет. Хочет пользоваться точной информацией — введет ту информацию, которая ему интересна. Нет — наверное таки пошлет.

ЗХ>Вариант два: добавить все скопом — а потом когда нибудь, в свободное время, "подписать" их — получим полный каталог неподписанного непонять чего.

Он и так был неподписанным непонять чем, ситуация как минимум не ухудшилась.

ЗХ>Вариант три: указать, какие файлы добавляются — программа показывает табличку "файл — 'угаданные' метаданные" — подтверждаем или редактируем — все добавлено. При этом, скажем, если мы хотим отредактировать поле "Автор", так там будет возможность выбрать одну из 20 первых строчек документа — чтоб не вводить автора руками.

Чтобы выбрать одну из 20 строчек, нужно знать, что внутри этого документа. Иначе нельзя. Т.е. получается, что юзер должен очень хорошо знать, что это он каталогизирует (хорошо, что пишу — выговоришь такое...) или видеть какое-то превью.

ЗХ>ы?

Тогда понятно. Я то подумал, что это действительно библиотечный каталог.

ЗХ>Я подозреваю, что в бОльшей части случаев таки да, можно корректно угадать. А в остальных — пользователь не будет на нас в обиде....

Пара соображений по теме:
Некоторые файлы не являются документами, в лучшем случае частями документа. Например, внешняя диаграмма в Вордовском файле сама по себе не имеет особого смысла. Терять ее нельзя, но и документом она не является. Ее нужно описать как фрагмент, со ссылкой на "главный" документ. Опять-таки, часто попадаются ПДФы "порезанные" на части, несколько страниц в одном файле, несколько в другом. Первая страница такого фрагмента может даже не с нового абзаца начинаться, не с начала предложения. Понятное дело, что определить вторая это часть или пятнадцатая можно только если очень хорошо знаешь содержание. Как такой файл описывать?
Получается, что в один проход все обработать нельзя, за первый проход можно внести в каталог только "корневые" элементы, а "детей" привязывать к ним уже на следующем проходе.
Можно повысить вероятность правильного "угадывания" используя статистику элементов форматирования и весовые коэффициенты зависимости от положения на странице. Мы делали такую штуку для восстановления структуры ПДФ документа — выделение колонтитулов, заголовков разного уровня, текста параграфа, подписей к картинкам, сносок и т.п. Просчитывали статистику по размерам шрифтов и гарнитурам, "подключали" разные коэффициенты и получали приличные результаты. А по верхнему колонтитулу можно и название документа, и название раздела/главы, и автора "угадать". Получалось весьма удовлетворительно, особенно для больших документов.

WBR, Александр Мова
Re[12]: Программа-библиотекарь
От: Зверёк Харьковский  
Дата: 17.11.04 18:10
Оценка:
Здравствуйте, Alex Mova, Вы писали:

AM>Пара соображений по теме:

AM>Некоторые файлы не являются документами, в лучшем случае частями документа. Например, внешняя диаграмма в Вордовском файле сама по себе не имеет особого смысла. Терять ее нельзя, но и документом она не является. Ее нужно описать как фрагмент, со ссылкой на "главный" документ. Опять-таки, часто попадаются ПДФы "порезанные" на части, несколько страниц в одном файле, несколько в другом. Первая страница такого фрагмента может даже не с нового абзаца начинаться, не с начала предложения. Понятное дело, что определить вторая это часть или пятнадцатая можно только если очень хорошо знаешь содержание. Как такой файл описывать?
Учтено. У нас используется концепция "книги", а не документа. Книга, в частности, может состоять из нескольких документов.
Помимо тех примеров, что Вы привели, еще может быть книга из 1000 html-ин

AM>Можно повысить вероятность правильного "угадывания" используя статистику элементов форматирования и весовые коэффициенты зависимости от положения на странице.

AM>Мы делали такую штуку для восстановления структуры ПДФ документа — выделение колонтитулов, заголовков разного уровня, текста параграфа, подписей к картинкам, сносок и т.п. Просчитывали статистику по размерам шрифтов и гарнитурам, "подключали" разные коэффициенты и получали приличные результаты. А по верхнему колонтитулу можно и название документа, и название раздела/главы, и автора "угадать". Получалось весьма удовлетворительно, особенно для больших документов.
Да, задумано. Хотя заниматься сексом придется много.
Кстати, покопавшись в PDF-е (до уровня извлечения голого текста) — должен сказать, что работу Вы выполнили совершенно героических объемов... У нас это все еще впереди...
сам слушаю и вам рекомендую: 19 — Эта игра
FAQ — це мiй ай-кью!
Re[10]: Программа-библиотекарь
От: action_jackson711 Россия http://jacksonviiii.livejournal.com
Дата: 17.11.04 19:10
Оценка:
ЗХ>>Угу. Следующий вопрос: в каком проценте документов Ворда....
AM>Ну я могу собрать такую статистику, если так уж нужно, но не прям сейчас, пару часов на это нужно. Напишите в приват на следующей неделе, чтоб не забыл.

AM>>>Мне кажется, что если в документе не прописаны автор и название, то не стоит пытаться определять их по косвенным признакам.

ЗХ>>Да, понимаете, если я этого не сделаю, то грош цена всей моей затее.
ЗХ>>Без пакетной обработки больших массивов книг с автоизвлечением метаданных —
AM>Если я правильно понимаю смысл библиотечных каталогов, да и каких бы то ни было каталогов вообще, главное там — точность информации. Не гипотеза, а факт. Извлечение хоть названия, хоть автора — любой информации — достоверно будет только если извлекать из места, специально предназначенного для такой информации. Программа, которая строит догадки, где тут в тексте название, а где фамилия автора — в чем ее смысл?

см., например, мой пост в начале этой ветки Пришел домой, специально глянул в папку. 687mb pdf'ов. В файлах это будет 320 шт. Все лево проименованы. Куда наугад не ткнулся- везде есть название (правда не всегда на первой странице , имя авторов и проч. Я уж не знаю, каталог мне нужен или библиотекарь, но я как юзер (да-да) хочу видеть примерно следующую форму: В левой части SDI дерево каталогов, а в правой- или snapshot титульника или инфа об авторе, названии
Re[11]: Программа-библиотекарь
От: Alex Mova  
Дата: 17.11.04 20:59
Оценка:
Здравствуйте, action_jackson711, Вы писали:

_>см., например, мой пост в начале этой ветки Пришел домой, специально глянул в папку. 687mb pdf'ов. В файлах это будет 320 шт. Все лево проименованы. Куда наугад не ткнулся- везде есть название (правда не всегда на первой странице , имя авторов и проч. Я уж не знаю, каталог мне нужен или библиотекарь, но я как юзер (да-да) хочу видеть примерно следующую форму: В левой части SDI дерево каталогов, а в правой- или snapshot титульника или инфа об авторе, названии

Ничего нереального. Сколько готов платить за такую программу?

WBR, Александр Мова
Re[3]: Программа-библиотекарь
От: _chipset Россия http://merlinko.com
Дата: 17.11.04 22:45
Оценка:
Здравствуйте, Зверёк Харьковский, Вы писали:

ЗХ>Здравствуйте, Gadsky, Вы писали:


G>>По моему любой рубрикатор — это лишняя забота для пользователя.

G>>В конце концов нормально вести каталог смогут только оччень трудолюбивые.
G>>А вот что-нибудь типа личного web-сервера с документацией, с возможностью
G>>полнотекстового поиска по различным форматам (pdf, html, txt) было бы
G>>иметь весьма удобно. В общем, чтобы из любой свалки можно было за
G>>приемлемое время вытянуть нужную вещь.

ЗХ>Во-первых, одно другого не исключает, и полнотекстовый поиск я очень даже планирую.

ЗХ>Во-вторых, не всем лень заниматься каталогизацией, и если сделать этот процесс в проге не более трудоемким (лучше менее), чем просто раскидать доки по папочкам, то многие будут это делать.
ЗХ>И в-третьих, в глубоком будущем я задумал автоматическую каталогизалку — ты ей 2 Гига доков, а она фыр-фыр-фыр и рассортировала все
Ага, и реализовать поддержку большого кол-ва форматов для парсинга... В теории можно сделать функции анализирующие текст и выбирающие автора, заглавие и.т.д... (ближе к ИИ)
А если ещё сделать приведение к одному формату кучи файлов самого разнообразного пошиба, генерация CHM библиотеки... :P
Вообщем мне лично такая программа будет очень нужна.
Успехов тебе и передавай привет Спецвузавтоматике !!!
... << RSDN@Home beta 3 rev. 207 писалось под звуки Ария — Мечты>>
"Всё что не убивает нас, делает нас сильнее..."
Re[3]: Программа-библиотекарь
От: _chipset Россия http://merlinko.com
Дата: 17.11.04 22:50
Оценка:
Здравствуйте, ironwit, Вы писали:

I>Здравствуйте, wildwind, Вы писали:


W>>Google Desktop Search

I>Не согласен что это аналог или замена сабжу.
I>1. Потенциальная дырка в приваси
I>2. pdf и chm по моему еще не поддерживает.
А ещё есть нормальные форматы для е-книг?
ИМХО нету...
I>3. Описание по ISBN с инета не выкачаешь.
I>4. Не нравится она мне
... << RSDN@Home beta 3 rev. 207 писалось под звуки Ария — Мечты>>
"Всё что не убивает нас, делает нас сильнее..."
Re[11]: Программа-библиотекарь
От: ironwit Украина  
Дата: 18.11.04 06:34
Оценка:
Здравствуйте, Зверёк Харьковский, Вы писали:

ЗХ>Вариант три: указать, какие файлы добавляются — программа показывает табличку "файл — 'угаданные' метаданные" — подтверждаем или редактируем — все добавлено. При этом, скажем, если мы хотим отредактировать поле "Автор", так там будет возможность выбрать одну из 20 первых строчек документа — чтоб не вводить автора руками.


Посмотри в сторону ice book reader, там неплохо реализован способ определения автора и заглавия
Я не умею быть злым, и не хочу быть добрым.
Re[4]: Программа-библиотекарь
От: Alex Mova  
Дата: 18.11.04 07:35
Оценка:
Здравствуйте, _chipset, Вы писали:

I>>2. pdf и chm по моему еще не поддерживает.

_>А ещё есть нормальные форматы для е-книг?
.lit?

WBR, Александр Мова
Re[5]: Программа-библиотекарь
От: ironwit Украина  
Дата: 18.11.04 08:36
Оценка:
Здравствуйте, Alex Mova, Вы писали:

AM>Здравствуйте, _chipset, Вы писали:


I>>>2. pdf и chm по моему еще не поддерживает.

_>>А ещё есть нормальные форматы для е-книг?
AM>.lit?

а сейчас еще и fictionbook появился, для художественных текстов в основном пока встречал
Я не умею быть злым, и не хочу быть добрым.
Re: Программа-библиотекарь
От: Sergey__ Россия  
Дата: 04.12.04 15:23
Оценка:
Здравствуйте, Зверёк Харьковский

ЗХ>у меня на винте валяется ок. 3 Гиг ОЧЕНЬ НУЖНОЙ И ПОЛЕЗНОЙ электронной документации.

ЗХ>Её КПД близок к 0, поскольку даже если я знаю, что ЭТО ГДЕ-ТО БЫЛО, найти что-нибудь в этой груде все равно очень тяжело

не много офф топик, но может будет интересно (я полагаю у многих встает вопрос о поиске в ворохе док)
я пробовал ряд прог
далее следуют цитаты


полнотекстов поиск :

1)GoogleDesktopSearchSetup.exe — бесплатна

2)The Sleuthhound! Pro
· Search for documents by keywords and display a document list in ONE second
· Has an easy-to-use, attractive and readable interface similar to popular Web Search Engines
· Shows extracts from the located documents with highlighted keywords
· Sorts list of located documents by document name, document data, folder name.
· Uses complex query with logical operator AND, OR, NOT, ( )
· Searches documents by trimmed keyword with wildcards * for extensive search

· Search documents by document date and name
· Supports plug-ins to allow you to extend program functionality.
· Automatically recognizes text coding in ASCII, ANSI, Unicode formats
· Runs the associated application and enables viewing of the whole document with a click on the located document
· Can be added to Windows start-up for automatic watch over your folders and documents.

Plus:
Searching caters for more than 21 different document types
Plug-ins are now supported for different document types, extending search capacity
Unlimited number of Search Zones
Unlimited number of documents in the Search Zone


2)dtSearch (http://www.dtsearch.co.uk/ поддерживает различные форматы (текстовые, базы данных, электронные таблицы, почтовые, PDF, ZIP, HTML, XML, и понимает в них Unicode), а встроенный вьювер отображает TIF, GIF, PCX, BMP, JPG, EPS, etc.


3) AVSearch
http://www.avtlab.ru/avsearch.htm — бесплатна
Программа предназначена для поиска файлов на дисках по фрагментам текста в любой кодировке: Windows, OEM 866 (DOS), KOI-8R, ISO 8859-5, UNICODE. Имеется возможность поиска в различных архивах (около 20 форматов). Встроенные средства позволяют просматривать найденные документы в текстовом виде или в виде HEX-таблицы. Разделенные процессы поиска и просмотра дают возможность работать с найденными документами не дожидаясь полного окончания поиска. Автоматическое выделение (подсветка) искомых слов и навигация между ними, сохранение списка файлов для дальнейшей обработки, доступность всех файловых операций (удаление, переименование, копирование), выбор для поиска различных папок (в том числе, находящихся на разных дисках), "фильтрация" файлов (по размеру, типу, дате изменения) и многое другое...

4)"Следопыт"
http://www.sledopyt.ru
«Следопыт» обеспечивает удобный и эффективный поиск документов по их содержанию. Достаточно выделить фрагмент текста в окне и нажать кнопку на Панели инструментов, чтобы «Следопыт» нашел все близкие по содержанию документы. Найденные документы не обязательно содержат те же слова в том же порядке и в тех же грамматических формах. Поиск осуществляется на основе информации, собранной при индексировании исходных документов. Создание индекса возможно для различных областей поиска, например для папок на локальном диске ПК. В новой версии добавлена возможность поиска в локальной сети, а также хранения индексов съемных носителей (CD/DVD/ZIP). Само индексирование проводится довольно быстро: на относительно слабом по сегодняшним меркам компьютере с процессором Pentium 233 МГц и 32 Мбайт памяти скорость составляет порядка 100 Мбайт/мин.

В предыдущей версии "Следопыт" осуществлял поиск с использованием нечеткой морфологии: слова разбивались на составные части (приставку, корень, суффикс и окончание), а при поиске сравнивались только корни. В этой системе, например, слова "соль" и "соловей" оказывались родственными. Для решения проблемы в "Следопыт 3.0" был добавлен поиск с использованием словарной морфологии при более детальном разборе всех слов в запросе. Правда, возможность нечеткого поиска в третьей версии также сохранилась.
Помимо уже известных ему форматов Microsoft Office, TXT и HTML, "Следопыт" научился разбирать также файлы PDF (Adobe Acrobat), почтовые сообщения Outlook и архивы zip.

5) diskMETA


"
CopernicDesktopSearch.
Выпущена совсем недавно.
+:
1.Поиск по всем видам файлов(текст,нтм,видео,музыка,почта)
2.Индексация в фоновом режиме.(только в хр,win2k).А также можешь сам задавать время индексации.
3.Бесплатно.
4.Поиск ведется также по имени файла и папки.
5.Малый размер:2.5Мб
6.Можно указывать поиск по отдельной папке.
-:
1.Степень сжатия 12% архивом (Чем больше число тем лучше!!!)
2.Пока(может быть), нет русификации.
3.Нет поиска по морфологии русского языка.
4.Долго проводит индексацию, и берет ресурсы.
Возможно дальнейшее развитие проги.

Следопыт(Вер2.0 и 3.0)
Выпущены:2,0 — в 1999году; 3,0 — 2002год
+:
1.Поддержка морфологии и очень хорошая точность поиска. Я пока не нашел другой проги с таким качеством поиска.
2.Только в вер.2.0 есть возможность выбрать самому тип индексируемого файла.
3.Относительно быстрое индексирование.
4.Степень сжатия 75%.!!!
-:
1.В вер.3.0 требуется обязательное присутсвие в системе MS SQL
2.В вер.3.0 размер проги 10МБ
3.Нельзя искать по отдельной папке.
Дальнейшее развитие очень маловероятно.

The Sleuthhound! Или Ищейка.
+:
1.Удобное отображение результатов поиска(как в интернете)
2.Относительное быстрое индексирование
3.Поиск по отдельной папки.
-:
1.При индексации zip. файлов прога виснет. Поэтому и не надейтесь сканировать эти файлы.
2.Степень сжатия 21%
3.Не точно проводит поиск (и синтаксис плохой)
Дальнейшее развитие будет на 99%.

Вывод, ребята, такой пока не существует такой проги, которая была бы мощной и делала все как положено. Хотя есть, конечно
Яndex.Server Enterprise. Но я в инете нигде не нашел ее(кромея яндекса конечно), и ключик ее конечно.

Есть другие проги: dvygun_smart_search, active detective, Super Text Search... Поверьте не стоит тратить время на эти проги.

И еще очень хорошая и бесплатная прога без индексации AVSearch.- Во всех архивах и кодировках понимает.
"
Sergey
Re[2]: Программа-библиотекарь
От: hornet Россия http://www.wiki.pindex.ru/
Дата: 04.12.04 18:50
Оценка:
Здравствуйте, retalik, Вы писали:

R>Кстати, мне нехватает, скорее, не "библиотекаря", а "книгочея" — программы, которая бы обладала удобствами BookSeer (запоминание позиции, настройки шрифтов и т.д.) и имела бы дополнительный сервис (каталогизация из архивов, с использованием регекспов, возможность "диктовки" вслух и более удобной настройки раюочего места).


Вот тут TextReader — прога супер (я пользуюсь старой версией, см. на сайте)
здесь

Читай с ней на компе — одно удовольствие!
А новая и сама может читать.
Re[2]: Программа-библиотекарь
От: yxiie Украина www.enkord.com
Дата: 04.12.04 20:52
Оценка:
Здравствуйте, retalik, Вы писали:

R>Кстати, мне нехватает, скорее, не "библиотекаря", а "книгочея" — программы, которая бы обладала удобствами BookSeer (запоминание позиции, настройки шрифтов и т.д.) и имела бы дополнительный сервис (каталогизация из архивов, с использованием регекспов, возможность "диктовки" вслух и более удобной настройки раюочего места).


а я все в FARе читаю, даже книги. Кстати просмотрщик ФАРа — то что надо. цвета глаза не напрягают, шрифт крупный можно настроить, позицию запоминает,
удобный поиск, в т.ч. и с регулярными выражениями, в общем проще к ФАРу плагин поставить или настройки подкрутить, чем искать какие-то левые программы сомнительного качества
... << RSDN@Home 1.1.3 stable >>
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.