Сохранить веб страницу с контентом одним HTML файлом
От: Аноним  
Дата: 07.10.10 18:49
Оценка:
Для Google Chrome есть расширение SingleFile, которое позволяет сохранять веб страницы одним html файлом с использованием data URI scheme.
Html страница выглядит так:

<html>
 ...
 <body>
  ...
  <img src="data:image/png;base64,
  iVBORw0KGgoAAAANSUhEUgAAAAoAAAAKCAYAAACNMs+9AAAABGdBTUEAALGP
  C/xhBQAAAAlwSFlzAAALEwAACxMBAJqcGAAAAAd0SU1FB9YGARc5KB0XV+IA
  AAAddEVYdENvbW1lbnQAQ3JlYXRlZCB3aXRoIFRoZSBHSU1Q72QlbgAAAF1J
  REFUGNO9zL0NglAAxPEfdLTs4BZM4DIO4C7OwQg2JoQ9LE1exdlYvBBeZ7jq
  ch9//q1uH4TLzw4d6+ErXMMcXuHWxId3KOETnnXXV6MJpcq2MLaI97CER3N0
  vr4MkhoXe0rZigAAAABJRU5ErkJggg==" alt="Red dot" />
  ...
 </body>
 ...
</html>

На сайте SingleFile есть исходный код расширения. Переписать на .NET слабо...

Может, кто знает примеры на .NET?
Есть URL надо программно получить HTML файл...
MHTML(MHT) к сожалению не катит.
Re: Сохранить веб страницу с контентом одним HTML файлом
От: matumba  
Дата: 07.10.10 19:33
Оценка:
Здравствуйте, Аноним, Вы писали:

А> позволяет сохранять веб страницы одним html файлом

А>Есть URL надо программно получить HTML файл...

Хоспыдя, да чо там писать? Закачал страницу, отбросил комменты, пропарсил IMG и скачал остальное! Ну а уж в Base64 вывести — вообще лабораторка.
Даже качать-то и не придётся, wget в помощь.
Re[2]: Сохранить веб страницу с контентом одним HTML файлом
От: маген Россия https://ru.linkedin.com/pub/alexey-smorkalov/4/283/8b8
Дата: 07.10.10 19:49
Оценка:
M>Хоспыдя, да чо там писать? Закачал страницу, отбросил комменты, пропарсил IMG и скачал остальное! Ну а уж в Base64 вывести — вообще лабораторка.
M>Даже качать-то и не придётся, wget в помощь.

Как минимум забыли про скрипты и стили.
И еще по уму развернуть это хозяйство когда документ открывать будем обратно.
Вообщем, вроде бы никакой фантастики, но и не на один вечер дело.

А комменты зачем отбрасывать?
Re[3]: Сохранить веб страницу с контентом одним HTML файлом
От: Tom Россия http://www.RSDN.ru
Дата: 07.10.10 20:25
Оценка:
Здравствуйте, маген, Вы писали:


M>>Хоспыдя, да чо там писать? Закачал страницу, отбросил комменты, пропарсил IMG и скачал остальное! Ну а уж в Base64 вывести — вообще лабораторка.

M>>Даже качать-то и не придётся, wget в помощь.

М>Как минимум забыли про скрипты и стили.

И фреймы, вообще задача как мне кажется не тривиальная.
Взять хотя бы парсинг, он для HTML-а как я понимаю нетривиален
Народная мудрось
всем все никому ничего(с).
Re[3]: Сохранить веб страницу с контентом одним HTML файлом
От: matumba  
Дата: 07.10.10 20:29
Оценка:
Здравствуйте, маген, Вы писали:

М>Как минимум забыли про скрипты и стили.


О каких скриптах речь, если картинки только и можно, что сохранять в теге со спец.URL? (см. src="data:....)
А со стилями — бог их знает, стандарт не копал, но парсить всё это добро — извините, задача уже для коммерческой разработки.

М>А комменты зачем отбрасывать?


Ну не отбрасывай — значит, если внутри коммента попадётся IMG, зря потратишь ресурсы.
Re[4]: Сохранить веб страницу с контентом одним HTML файлом
От: маген Россия https://ru.linkedin.com/pub/alexey-smorkalov/4/283/8b8
Дата: 07.10.10 20:45
Оценка:
M>О каких скриптах речь, если картинки только и можно, что сохранять в теге со спец.URL? (см. src="data:....)

с чего бы? вроде любой MIME type, в т.ч. text/html, всевозможные application/xxx и т.д.
и даже картинки могут быть не только в IMG, а и в CSS, и их тоже надо запихивать в data:,
если делать все по уму.
Re[4]: Сохранить веб страницу с контентом одним HTML файлом
От: matumba  
Дата: 07.10.10 20:57
Оценка:
Здравствуйте, Tom, Вы писали:

Tom>И фреймы


Не забывайте про исходную задачу — человеку понадобилась страница с картинками. Может, мне ещё исходники ASP страниц декомпилировать?
Нужен фрейм — открой его URL и закачай. Много чего можно ДОБАВИТЬ, но в исходной постановке задача тривиальна.

Tom>Взять хотя бы парсинг, он для HTML-а как я понимаю нетривиален


Не так страшен чёрт, как его малюют. Что конкретно там вызывает сложности? (я не прошу совсем уж углублённо, просто навскидку скажите, что может быть сложным)
Re[5]: Сохранить веб страницу с контентом одним HTML файлом
От: Аноним  
Дата: 07.10.10 22:07
Оценка:
M>Может, мне ещё исходники ASP страниц декомпилировать?
сначала получи их...
M>Не так страшен чёрт, как его малюют. Что конкретно там вызывает сложности? (я не прошу совсем уж углублённо, просто навскидку скажите, что может быть сложным)
код в студию...
Re[4]: Сохранить веб страницу с контентом одним HTML файлом
От: Аноним  
Дата: 07.10.10 22:12
Оценка:
M>О каких скриптах речь, если картинки только и можно, что сохранять в теге со спец.URL? (см. src="data:....)
О всех и вся...
M>А со стилями — бог их знает, стандарт не копал, но парсить всё это добро — извините, задача уже для коммерческой разработки.
Чета тебя не понять – так лаба или полвинды?
Re[5]: Сохранить веб страницу с контентом одним HTML файлом
От: matumba  
Дата: 08.10.10 09:39
Оценка:
Здравствуйте, маген, Вы писали:

M>>О каких скриптах речь, если картинки только и можно, что сохранять в теге со спец.URL? (см. src="data:....)


М>с чего бы? вроде любой MIME type, в т.ч. text/html, всевозможные application/xxx и т.д.


Не понимаю, что значит "любой MIME" в применении к задаче "сохранить страницу с картинками"?

М>и даже картинки могут быть не только в IMG, а и в CSS, и их тоже надо запихивать в data:,


Стили, вместе с хитрож... вебдизайнерами идут лесом. Если уж целые браузеры едва справляются со стандартом, что вы хотите от плагинчика, сохраняющего страницу?? Народ такой смешной попался.... едва поняли о чём речь, уже забросали никчемушными граблями. Просто закачайте страницу и заберите все картинки из тегов IMG, всё — для 99% случаев этого достаточно.

А вообще, формулировка-то выдана конечная — в меру развития спрашивающего, тут надо на саму задачу смотреть — может достаточно print to PDF
Re[6]: Сохранить веб страницу с контентом одним HTML файлом
От: маген Россия https://ru.linkedin.com/pub/alexey-smorkalov/4/283/8b8
Дата: 08.10.10 11:50
Оценка:
M>Не понимаю, что значит "любой MIME" в применении к задаче "сохранить страницу с картинками"?

Вам, видимо, какая-то более уточненная формулировка задачи известна
Мне — только из топика
>есть расширение SingleFile, которое позволяет сохранять веб страницы одним html файлом

Про то, что ограничиваемся только картинками и плюем на css, мне как-то неочевидно из формулировки
Вообщем, спор ниочем.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.