Какой библиотекой распарсить HTML

	От:	DarthSidius
	Дата:	15.06.16 12:12
	Оценка:

Есть HTML, надо достать пару элементов типа как GetElementById или через XPath
Ничего записывать-модифицировать в документе не надо.

... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>

♠♠♥♠♠♦♥

Re: Html Agility Pack

От:	Qbit86	https://twitter.com/qbit86
Дата:	15.06.16 12:15
Оценка:	+1

Здравствуйте, DarthSidius, Вы писали:

DS>Какой библиотекой распарсить HTML

Html Agility Pack.

Глаза у меня добрые, но рубашка — смирительная!

Re: Какой библиотекой распарсить HTML

	От:	Sinix
	Дата:	15.06.16 12:16
	Оценка:	7 (3)

Здравствуйте, DarthSidius, Вы писали:

DS>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath
DS>Ничего записывать-модифицировать в документе не надо.

AngleSharp.

http://www.alimozdemir.com/htmlagilitypack-csquery-and-anglesharp-comparison/
https://habrahabr.ru/post/273807/
https://github.com/AngleSharp/AngleSharp/wiki/Performance
http://stackoverflow.com/questions/1065031/is-the-html-agility-pack-still-the-best-net-html-parser

Отредактировано 15.06.2016 12:18 Sinix . Предыдущая версия .

Re[2]: Html Agility Pack

	От:	Sinix
	Дата:	15.06.16 12:18
	Оценка:	4 (1) +1

Здравствуйте, Qbit86, Вы писали:

Q>Html Agility Pack.
Так он же мёртв года три как.

Re[2]: Какой библиотекой распарсить HTML

	От:	DarthSidius
	Дата:	15.06.16 12:28
	Оценка:

Здравствуйте, Sinix, Вы писали:

S>AngleSharp.

Смотрел на него, не слишком мощно для моей задачи?

... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>

♠♠♥♠♠♦♥

Re[3]: Какой библиотекой распарсить HTML

	От:	Sinix
	Дата:	15.06.16 12:40
	Оценка:	7 (1)

Здравствуйте, DarthSidius, Вы писали:

DS>Смотрел на него, не слишком мощно для моей задачи?

Тогда regex-ы. Хинт: перед использованием ознакомиться с списком побочных эффектов.

Re: Какой библиотекой распарсить HTML

От:	Serginio1	https://habrahabr.ru/users/serginio1/topics/
Дата:	15.06.16 12:46
Оценка:

Здравствуйте, DarthSidius, Вы писали:

DS>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath
DS>Ничего записывать-модифицировать в документе не надо.

AngleSharp очень хорошая библиотека позволяет искать в стиле JQuery
Даже статью для 1С ников написал http://infostart.ru/public/466196/

и солнце б утром не вставало, когда бы не было меня

Re[4]: Какой библиотекой распарсить HTML

	От:	DarthSidius
	Дата:	15.06.16 13:02
	Оценка:

Здравствуйте, Sinix, Вы писали:

S>Здравствуйте, DarthSidius, Вы писали:

DS>>Смотрел на него, не слишком мощно для моей задачи?

S>Тогда regex-ы. Хинт: перед использованием ознакомиться с списком побочных эффектов.

Ага, спс.

While it is true that asking regexes to parse arbitrary HTML is like asking Mr. Bean to write an operating system, it's sometimes appropriate to parse a limited, known set of HTML.
If you have a small set of HTML pages that you want to scrape data from and then stuff into a database, regexes might work fine. For example, I recently wanted to get the names, parties, and districts of Australian federal Representatives, which I got off of the Parliament's web site. This was a limited, one-time job.
Regexes worked just fine for me, and were very fast to set up.

... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>

♠♠♥♠♠♦♥

Re: Какой библиотекой распарсить HTML

От:	Serginio1	https://habrahabr.ru/users/serginio1/topics/
Дата:	15.06.16 13:25
Оценка:	3 (1)

и солнце б утром не вставало, когда бы не было меня

Re[4]: Какой библиотекой распарсить HTML

	От:	Yoriсk
	Дата:	15.06.16 14:29
	Оценка:

Здравствуйте, Sinix, Вы писали:

S>Тогда regex-ы. Хинт: перед использованием ознакомиться с списком побочных эффектов.

Зашел сюда просто что-бы увидеть этот линк.

Re[2]: Какой библиотекой распарсить HTML

	От:	DarthSidius
	Дата:	15.06.16 14:43
	Оценка:

Здравствуйте, Serginio1, Вы писали:

S>Здравствуйте, DarthSidius, Вы писали:

DS>>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath
DS>>Ничего записывать-модифицировать в документе не надо.

S>http://rsdn.ru/forum/dotnet/6364737.1

Скрипты не интересны. Есть текст, нужно выдрать пару кусков

... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>

♠♠♥♠♠♦♥

Re[4]: Какой библиотекой распарсить HTML

	От:	DarthSidius
	Дата:	15.06.16 14:57
	Оценка:

... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>

♠♠♥♠♠♦♥

Re[3]: Какой библиотекой распарсить HTML

От:	Serginio1	https://habrahabr.ru/users/serginio1/topics/
Дата:	15.06.16 15:18
Оценка:	3 (1)

Здравствуйте, DarthSidius, Вы писали:

DS>Здравствуйте, Serginio1, Вы писали:

S>>Здравствуйте, DarthSidius, Вы писали:

DS>>>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath
DS>>>Ничего записывать-модифицировать в документе не надо.

S>>http://rsdn.ru/forum/dotnet/6364737.1

DS>Скрипты не интересны. Есть текст, нужно выдрать пару кусков
Первая ссылка это подбор парсеров
http://ru.stackoverflow.com/questions/420354/%D0%9A%D0%B0%D0%BA-%D1%80%D0%B0%D1%81%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D1%82%D1%8C-html-%D0%B2-net/450586

В том числе и Regex

и солнце б утром не вставало, когда бы не было меня

Re[4]: Какой библиотекой распарсить HTML

	От:	DarthSidius
	Дата:	15.06.16 16:08
	Оценка:

Здравствуйте, Serginio1, Вы писали:

DS>>>>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath
DS>>>>Ничего записывать-модифицировать в документе не надо.

S>>>http://rsdn.ru/forum/dotnet/6364737.1

DS>>Скрипты не интересны. Есть текст, нужно выдрать пару кусков
S> Первая ссылка это подбор парсеров
S>http://ru.stackoverflow.com/questions/420354/%D0%9A%D0%B0%D0%BA-%D1%80%D0%B0%D1%81%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D1%82%D1%8C-html-%D0%B2-net/450586

SgmlReader вроде то что доктор прописал. Буду копать, спс!

... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>

♠♠♥♠♠♦♥

Re[5]: Какой библиотекой распарсить HTML

От:	Serginio1	https://habrahabr.ru/users/serginio1/topics/
Дата:	15.06.16 16:58
Оценка:

Здравствуйте, DarthSidius, Вы писали:

DS>Здравствуйте, Serginio1, Вы писали:

DS>>>>>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath
DS>>>>>Ничего записывать-модифицировать в документе не надо.

S>>>>http://rsdn.ru/forum/dotnet/6364737.1

DS>>>Скрипты не интересны. Есть текст, нужно выдрать пару кусков
S>> Первая ссылка это подбор парсеров
S>>http://ru.stackoverflow.com/questions/420354/%D0%9A%D0%B0%D0%BA-%D1%80%D0%B0%D1%81%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D1%82%D1%8C-html-%D0%B2-net/450586

DS>SgmlReader вроде то что доктор прописал. Буду копать, спс!

Ты считаешь, что SgmlReader легче чем AngleSharp?
Лучше потратить время на изучение AngleSharp. Это пригодится и при вэб программировании (JQuery)
И поиск быстрее нежели сначала сконыертировать в XML а затем в нем искать нужное. Это хорошо на маленьких страницах, но на больших это тормоза.

и солнце б утром не вставало, когда бы не было меня

Переместить
Удалить
Выделить ветку

Пока на собственное сообщение не было ответов, его можно удалить.

Заголовок: