создание на лету документов Word без COM
От: TheBattleRagesOn Россия http://www.chtivo.webhost.ru
Дата: 26.02.06 06:33
Оценка:
Проблема такая встала... автоматического преобразования скриптами форматов doc, xls, txt и pdf в тривиальный HTML. Если с обычным текстом всё ясно и понятно, то с остальными форматами — сплошные проблемы. По xls я нашёл скрипт, извлекающий текст, надеюсь, что и по pdf есть что-то. Однако самый распространённый документ Word — самая настоящая тёмная лошадка, если работать с ним не через COM-объект (нет Win-хостинга).

Если по такому формату, как RTF на MSDN ещё есть что-то (спецификация на английском), то DOC остаётся одним из святых таинств MS. Если даже тупо брать и открывать его fopen, то возникают проблемы с кодировками: UTF-16, используемый в файле word (как пишет редактор Bred) упорно не хочет переводиться в любую другую (с помощью mb_convert_encoding).

Вот и сиди — думай, что делать. Те скрипты по разбору xls мне мало чего дали, я не настолько опытный, чтобы понимать все смещения ячеек, без спецификации на формат — разобраться сложно.
Быть может кто знает, как всё таки перевести документы word в html (и наоборот, соотв.); или если где лежит спецификация на формат DOC, украденная у MS — тоже рад буду её увидеть.
Скриптов же, делающих эту адскую работу, я не прошу, хотя и буду рад, если они есть.

P.S. библиотеку WmVare не могу скомпилировать, хотя по заявлениям она подобную работу делает.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.