Доброго времени суток!
Вот возникла такая проблема — надо документы из doc переводить в html в добавлением кое-какой маркировки.
Так как документов много и они большие, то было принято решение об автоматизации этого процесса.
В качестве парсера использую JTidy 8. Но возникла следующая проблема при сохранении.
Ворд при сохранении дока как html вставляет кучу всяких тегов, в том числе, если заголовок был выделен жирным, пробелы между словами вставляет как span приблизительно следующего вида:
<span style='mso-bidi-font-family:Arial'> </span>.
Но JTidy пробельчик внутри span'а убирает... и получается, что пробелы уходят... получается слитный текст в заголовках...
При создании экземрляра парсера JTidy настаиваю его следующим образом:
tidy.setTrimEmptyElements(false);
tidy.setDropEmptyParas(false);
tidy.setJoinStyles(false);
tidy.setInputEncoding("latin1");
Как вы думаете, в чем может быть проблема и что может мне помочь? Заранее спасибо