Здравствуйте, Borisman, Вы писали:
B>Чем парсить XML — не вопрос. Проблема в том, что HTML — не всегда well-formed XML. Существует пакет org.w3c.dom.html, описывающий интерсфейсы модели DOM для HTML. А как теперь получить этот самый HTMLDocument ???
B>Нашел такую штуку : http://www.docuverse.com/domsdk/
B>Использует javax.swing.text.html.parser для создания SAX парсера и для создния DOM. Но нифига не понимает таких, например, вещей:
B><img src="myimage.jpg">
B>может я чего-то не понимаю? Существует ли какое-то СТАНДАРТНОЕ решение для работы с DOM HTML ????
JTidy — ссылку не помню, но это имхо лучшее, что есть...
Чем парсить XML — не вопрос. Проблема в том, что HTML — не всегда well-formed XML. Существует пакет org.w3c.dom.html, описывающий интерсфейсы модели DOM для HTML. А как теперь получить этот самый HTMLDocument ???
Нашел такую штуку :
http://www.docuverse.com/domsdk/
Использует javax.swing.text.html.parser для создания SAX парсера и для создния DOM. Но нифига не понимает таких, например, вещей:
<img
src="myimage.jpg">
может я чего-то не понимаю? Существует ли какое-то СТАНДАРТНОЕ решение для работы с DOM HTML ????
Здравствуйте, Borisman, Вы писали:
B>Чем парсить XML — не вопрос. Проблема в том, что HTML — не всегда well-formed XML. Существует пакет org.w3c.dom.html, описывающий интерсфейсы модели DOM для HTML. А как теперь получить этот самый HTMLDocument ???
B>Нашел такую штуку : http://www.docuverse.com/domsdk/
B>Использует javax.swing.text.html.parser для создания SAX парсера и для создния DOM. Но нифига не понимает таких, например, вещей:
B><img src="myimage.jpg">
B>может я чего-то не понимаю? Существует ли какое-то СТАНДАРТНОЕ решение для работы с DOM HTML ????
А
xerces ты уже пробовал?
Здравствуйте, Borisman, Вы писали:
Я использовал
http://www.quiotix.com/downloads/html-parser/ — типа SAX парсера, но для HTML (совершенно произвольного)