Чем парсить HTML?
От: Borisman  
Дата: 27.05.03 06:19
Оценка:
Чем парсить XML — не вопрос. Проблема в том, что HTML — не всегда well-formed XML. Существует пакет org.w3c.dom.html, описывающий интерсфейсы модели DOM для HTML. А как теперь получить этот самый HTMLDocument ???

Нашел такую штуку : http://www.docuverse.com/domsdk/
Использует javax.swing.text.html.parser для создания SAX парсера и для создния DOM. Но нифига не понимает таких, например, вещей:

<img src="myimage.jpg">

может я чего-то не понимаю? Существует ли какое-то СТАНДАРТНОЕ решение для работы с DOM HTML ????
Re: Чем парсить HTML?
От: Lloyd Россия  
Дата: 27.05.03 06:29
Оценка:
Здравствуйте, Borisman, Вы писали:

B>Чем парсить XML — не вопрос. Проблема в том, что HTML — не всегда well-formed XML. Существует пакет org.w3c.dom.html, описывающий интерсфейсы модели DOM для HTML. А как теперь получить этот самый HTMLDocument ???


B>Нашел такую штуку : http://www.docuverse.com/domsdk/

B>Использует javax.swing.text.html.parser для создания SAX парсера и для создния DOM. Но нифига не понимает таких, например, вещей:

B><img src="myimage.jpg">


B>может я чего-то не понимаю? Существует ли какое-то СТАНДАРТНОЕ решение для работы с DOM HTML ????


А xerces ты уже пробовал?
Re: Чем парсить HTML?
От: Аноним  
Дата: 27.05.03 06:37
Оценка:
Здравствуйте, Borisman, Вы писали:

Я использовал http://www.quiotix.com/downloads/html-parser/ — типа SAX парсера, но для HTML (совершенно произвольного)
Re: Чем парсить HTML?
От: Karimchik  
Дата: 27.05.03 06:41
Оценка: 3 (1)
Здравствуйте, Borisman, Вы писали:

B>Чем парсить XML — не вопрос. Проблема в том, что HTML — не всегда well-formed XML. Существует пакет org.w3c.dom.html, описывающий интерсфейсы модели DOM для HTML. А как теперь получить этот самый HTMLDocument ???


B>Нашел такую штуку : http://www.docuverse.com/domsdk/

B>Использует javax.swing.text.html.parser для создания SAX парсера и для создния DOM. Но нифига не понимает таких, например, вещей:

B><img src="myimage.jpg">


B>может я чего-то не понимаю? Существует ли какое-то СТАНДАРТНОЕ решение для работы с DOM HTML ????


JTidy — ссылку не помню, но это имхо лучшее, что есть...
Re[2]: Чем парсить HTML?
От: Borisman  
Дата: 28.05.03 03:05
Оценка:
K>JTidy — ссылку не помню, но это имхо лучшее, что есть...

Да, кажется Вы правы.... Действительно, стоящая штука....
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.