JTidy проблемы со Span
От: Kuzz Россия  
Дата: 14.05.07 07:28
Оценка:
Доброго времени суток!
Вот возникла такая проблема — надо документы из doc переводить в html в добавлением кое-какой маркировки.
Так как документов много и они большие, то было принято решение об автоматизации этого процесса.
В качестве парсера использую JTidy 8. Но возникла следующая проблема при сохранении.
Ворд при сохранении дока как html вставляет кучу всяких тегов, в том числе, если заголовок был выделен жирным, пробелы между словами вставляет как span приблизительно следующего вида:
<span style='mso-bidi-font-family:Arial'> </span>.
Но JTidy пробельчик внутри span'а убирает... и получается, что пробелы уходят... получается слитный текст в заголовках...
При создании экземрляра парсера JTidy настаиваю его следующим образом:
tidy.setTrimEmptyElements(false);
tidy.setDropEmptyParas(false);
tidy.setJoinStyles(false);
tidy.setInputEncoding("latin1");


Как вы думаете, в чем может быть проблема и что может мне помочь? Заранее спасибо
Actions speak louder than words
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.