Какой библиотекой распарсить HTML
От: DarthSidius  
Дата: 15.06.16 12:12
Оценка:
Есть HTML, надо достать пару элементов типа как GetElementById или через XPath
Ничего записывать-модифицировать в документе не надо.
... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>
♠♠♥♠♠♦♥
Re: Html Agility Pack
От: Qbit86 Кипр
Дата: 15.06.16 12:15
Оценка: +1
Здравствуйте, DarthSidius, Вы писали:

DS>Какой библиотекой распарсить HTML


Html Agility Pack.
Глаза у меня добрые, но рубашка — смирительная!
Re: Какой библиотекой распарсить HTML
От: Sinix  
Дата: 15.06.16 12:16
Оценка: 7 (3)
Здравствуйте, DarthSidius, Вы писали:

DS>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath

DS>Ничего записывать-модифицировать в документе не надо.

AngleSharp.

http://www.alimozdemir.com/htmlagilitypack-csquery-and-anglesharp-comparison/
https://habrahabr.ru/post/273807/
https://github.com/AngleSharp/AngleSharp/wiki/Performance
http://stackoverflow.com/questions/1065031/is-the-html-agility-pack-still-the-best-net-html-parser
Отредактировано 15.06.2016 12:18 Sinix . Предыдущая версия .
Re[2]: Html Agility Pack
От: Sinix  
Дата: 15.06.16 12:18
Оценка: 4 (1) +1
Здравствуйте, Qbit86, Вы писали:

Q>Html Agility Pack.

Так он же мёртв года три как.
Re[2]: Какой библиотекой распарсить HTML
От: DarthSidius  
Дата: 15.06.16 12:28
Оценка:
Здравствуйте, Sinix, Вы писали:

S>AngleSharp.


Смотрел на него, не слишком мощно для моей задачи?
... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>
♠♠♥♠♠♦♥
Re[3]: Какой библиотекой распарсить HTML
От: Sinix  
Дата: 15.06.16 12:40
Оценка: 7 (1) :)
Здравствуйте, DarthSidius, Вы писали:

DS>Смотрел на него, не слишком мощно для моей задачи?


Тогда regex-ы. Хинт: перед использованием ознакомиться с списком побочных эффектов.
Re: Какой библиотекой распарсить HTML
От: Serginio1 СССР https://habrahabr.ru/users/serginio1/topics/
Дата: 15.06.16 12:46
Оценка:
Здравствуйте, DarthSidius, Вы писали:

DS>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath

DS>Ничего записывать-модифицировать в документе не надо.

AngleSharp очень хорошая библиотека позволяет искать в стиле JQuery
Даже статью для 1С ников написал http://infostart.ru/public/466196/
и солнце б утром не вставало, когда бы не было меня
Re[4]: Какой библиотекой распарсить HTML
От: DarthSidius  
Дата: 15.06.16 13:02
Оценка:
Здравствуйте, Sinix, Вы писали:

S>Здравствуйте, DarthSidius, Вы писали:


DS>>Смотрел на него, не слишком мощно для моей задачи?


S>Тогда regex-ы. Хинт: перед использованием ознакомиться с списком побочных эффектов.


Ага, спс.

While it is true that asking regexes to parse arbitrary HTML is like asking Mr. Bean to write an operating system, it's sometimes appropriate to parse a limited, known set of HTML.
If you have a small set of HTML pages that you want to scrape data from and then stuff into a database, regexes might work fine. For example, I recently wanted to get the names, parties, and districts of Australian federal Representatives, which I got off of the Parliament's web site. This was a limited, one-time job.
Regexes worked just fine for me, and were very fast to set up.

... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>
♠♠♥♠♠♦♥
Re: Какой библиотекой распарсить HTML
От: Serginio1 СССР https://habrahabr.ru/users/serginio1/topics/
Дата: 15.06.16 13:25
Оценка: 3 (1)
Здравствуйте, DarthSidius, Вы писали:

DS>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath

DS>Ничего записывать-модифицировать в документе не надо.

http://rsdn.ru/forum/dotnet/6364737.1
Автор: Serginio1
Дата: 28.02.16
и солнце б утром не вставало, когда бы не было меня
Re[4]: Какой библиотекой распарсить HTML
От: Yoriсk  
Дата: 15.06.16 14:29
Оценка:
Здравствуйте, Sinix, Вы писали:

S>Тогда regex-ы. Хинт: перед использованием ознакомиться с списком побочных эффектов.


Зашел сюда просто что-бы увидеть этот линк.
Re[2]: Какой библиотекой распарсить HTML
От: DarthSidius  
Дата: 15.06.16 14:43
Оценка:
Здравствуйте, Serginio1, Вы писали:

S>Здравствуйте, DarthSidius, Вы писали:


DS>>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath

DS>>Ничего записывать-модифицировать в документе не надо.

S>http://rsdn.ru/forum/dotnet/6364737.1
Автор: Serginio1
Дата: 28.02.16


Скрипты не интересны. Есть текст, нужно выдрать пару кусков
... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>
♠♠♥♠♠♦♥
Re[4]: Какой библиотекой распарсить HTML
От: DarthSidius  
Дата: 15.06.16 14:57
Оценка:
Здравствуйте, Sinix, Вы писали:

S>Здравствуйте, DarthSidius, Вы писали:


DS>>Смотрел на него, не слишком мощно для моей задачи?


S>Тогда regex-ы. Хинт: перед использованием ознакомиться с списком побочных эффектов.


Вот что, нет что-то вроде LINQ to HTML или просто XPath ?
... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>
♠♠♥♠♠♦♥
Re[3]: Какой библиотекой распарсить HTML
От: Serginio1 СССР https://habrahabr.ru/users/serginio1/topics/
Дата: 15.06.16 15:18
Оценка: 3 (1)
Здравствуйте, DarthSidius, Вы писали:

DS>Здравствуйте, Serginio1, Вы писали:


S>>Здравствуйте, DarthSidius, Вы писали:


DS>>>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath

DS>>>Ничего записывать-модифицировать в документе не надо.

S>>http://rsdn.ru/forum/dotnet/6364737.1
Автор: Serginio1
Дата: 28.02.16


DS>Скрипты не интересны. Есть текст, нужно выдрать пару кусков

Первая ссылка это подбор парсеров
http://ru.stackoverflow.com/questions/420354/%D0%9A%D0%B0%D0%BA-%D1%80%D0%B0%D1%81%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D1%82%D1%8C-html-%D0%B2-net/450586

В том числе и Regex
и солнце б утром не вставало, когда бы не было меня
Re[4]: Какой библиотекой распарсить HTML
От: DarthSidius  
Дата: 15.06.16 16:08
Оценка:
Здравствуйте, Serginio1, Вы писали:

DS>>>>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath

DS>>>>Ничего записывать-модифицировать в документе не надо.

S>>>http://rsdn.ru/forum/dotnet/6364737.1
Автор: Serginio1
Дата: 28.02.16


DS>>Скрипты не интересны. Есть текст, нужно выдрать пару кусков

S> Первая ссылка это подбор парсеров
S>http://ru.stackoverflow.com/questions/420354/%D0%9A%D0%B0%D0%BA-%D1%80%D0%B0%D1%81%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D1%82%D1%8C-html-%D0%B2-net/450586

SgmlReader вроде то что доктор прописал. Буду копать, спс!
... << RSDN@Home (RF) 1.2.0 alpha 5 rev. 58>>
♠♠♥♠♠♦♥
Re[5]: Какой библиотекой распарсить HTML
От: Serginio1 СССР https://habrahabr.ru/users/serginio1/topics/
Дата: 15.06.16 16:58
Оценка:
Здравствуйте, DarthSidius, Вы писали:

DS>Здравствуйте, Serginio1, Вы писали:


DS>>>>>Есть HTML, надо достать пару элементов типа как GetElementById или через XPath

DS>>>>>Ничего записывать-модифицировать в документе не надо.

S>>>>http://rsdn.ru/forum/dotnet/6364737.1
Автор: Serginio1
Дата: 28.02.16


DS>>>Скрипты не интересны. Есть текст, нужно выдрать пару кусков

S>> Первая ссылка это подбор парсеров
S>>http://ru.stackoverflow.com/questions/420354/%D0%9A%D0%B0%D0%BA-%D1%80%D0%B0%D1%81%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D1%82%D1%8C-html-%D0%B2-net/450586

DS>SgmlReader вроде то что доктор прописал. Буду копать, спс!


Ты считаешь, что SgmlReader легче чем AngleSharp?
Лучше потратить время на изучение AngleSharp. Это пригодится и при вэб программировании (JQuery)
И поиск быстрее нежели сначала сконыертировать в XML а затем в нем искать нужное. Это хорошо на маленьких страницах, но на больших это тормоза.
и солнце б утром не вставало, когда бы не было меня
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.