Re[5]: Формат MS Word документа
От: Зверёк Харьковский  
Дата: 29.06.05 02:37
Оценка:
Здравствуйте, masquer, Вы писали:

M>>>А эту "документацию" и сейчас на wotsit можно найти, вот только написать по ней что-либо не получится


ЗХ>>Может вы ее просто готовить не умеете?

ЗХ>>У меня получилось почему-то

M>А что именно получилось и для какого формата? В любом случае у меня есть test-case как для экселя, так и для ворда, на которых все известные мне парсеры ведут себя некорректно, хотя написаны по документации. Под словами что-либо понимается не простое извлечение текста, естественно, хотя и тут есть много вопросов.


Я уже по другим Вашим сообщениям в этой ветке понял, что Вы в этой теме собаку съели
Так что беру свой "наезд" назад — во-первых, я пока только текст извлекаю, во-вторых, в качестве источника информации я использовал не только эти доки, но и исходники antiword.

К слову сказать, если поделитесь сложновывернутыми test-cases для ворда (а равно и вопросами, которые у Вас имеются к извлечению текста), моя благодарность не будет знать границ.
... << RSDN@Home 1.1.4 beta 6a rev. 436>>
FAQ — це мiй ай-кью!
Re[6]: Формат MS Word документа
От: masquer Украина  
Дата: 29.06.05 05:48
Оценка:
Здравствуйте, Зверёк Харьковский, Вы писали:

M>>А что именно получилось и для какого формата? В любом случае у меня есть test-case как для экселя, так и для ворда, на которых все известные мне парсеры ведут себя некорректно, хотя написаны по документации. Под словами что-либо понимается не простое извлечение текста, естественно, хотя и тут есть много вопросов.


ЗХ>Я уже по другим Вашим сообщениям в этой ветке понял, что Вы в этой теме собаку съели


Я этой собакой уже 5й год почти давлюсь

ЗХ>Так что беру свой "наезд" назад — во-первых, я пока только текст извлекаю, во-вторых, в качестве источника информации я использовал не только эти доки, но и исходники antiword.


Если удастся собрать исходники антиворда то текст он извлекает нормально с некоторыми оговорками, но для восстановления форматирования в общем случае непригоден.

ЗХ>К слову сказать, если поделитесь сложновывернутыми test-cases для ворда (а равно и вопросами, которые у Вас имеются к извлечению текста), моя благодарность не будет знать границ.


Ушло приватом.
Re[7]: Формат MS Word документа
От: bigwizard  
Дата: 29.06.05 08:22
Оценка:
ЗХ>>Так что беру свой "наезд" назад — во-первых, я пока только текст извлекаю, во-вторых, в качестве источника информации я использовал не только эти доки, но и исходники antiword.
M>Если удастся собрать исходники антиворда то текст он извлекает нормально с некоторыми оговорками, но для восстановления форматирования в общем случае непригоден.
ЗХ>>К слову сказать, если поделитесь сложновывернутыми test-cases для ворда (а равно и вопросами, которые у Вас имеются к извлечению текста), моя благодарность не будет знать границ.
M>Ушло приватом.
И мне, пожалуйста, на <nick> at mail.ru

Заранее спасибо,
bw.
Re[3]: Формат MS Word документа
От: bizhan  
Дата: 29.06.05 12:43
Оценка:
Здравствуйте, masquer, Вы писали:

M>Здравствуйте, Alex Mova, Вы писали:


M>Вот только не получится ничего для общего случая, даже текст извлечь — например из fast saved точно не получится


Текст из fast-saved извлекается на раз.

Павел
Re[4]: Формат MS Word документа
От: masquer Украина  
Дата: 29.06.05 12:48
Оценка:
Здравствуйте, bizhan, Вы писали:

M>>Вот только не получится ничего для общего случая, даже текст извлечь — например из fast saved точно не получится


B>Текст из fast-saved извлекается на раз.


Без разбора потока WordDocument и со смешанными блоками анси+юникод? Т.е. найти начало текста и линейно скопировать? Ню-ню
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.