Kiwix и список всех статей
От: Shmj Ниоткуда  
Дата: 04.10.24 16:07
Оценка:
Вопрос такой.

Вот есть тот же Kiwix — возможность оффлайн -википедии. Там есть поиск по статьям, есть случайная статья. А вот чтобы системно — список всех статей, желательно по категориям — такого уже нет. Ну хотя бы в алфовитном порядке (в MacOS -версии не нашел).

И тут дело даже не в Kiwix. Вообще в современном мире исчезает стремление к категоризации и структуризации информации, стремление владеть информацией. Т.е. если в с чем-то не сталкивались и не сможете ввести запрос — вы лишены шансов вообще узнать об этом явлении, оно так и останется сокрыто от вас.

При этом старая школа как бы пыталась охватить все и содержать в узде все сферы познания.
Re: Kiwix и список всех статей
От: Muxa  
Дата: 04.10.24 20:37
Оценка:
S>Вопрос такой.

Какой вопрос-то?
Чо спросить хотел? Почему народ перестал пользоваться каталогами и просто гуглит?
Re: Kiwix и список всех статей
От: velkin Удмуртия https://kisa.biz
Дата: 05.10.24 10:59
Оценка: 3 (1)
Здравствуйте, Shmj, Вы писали:

S>Вопрос такой.

S>Вот есть тот же Kiwix — возможность оффлайн -википедии. Там есть поиск по статьям, есть случайная статья. А вот чтобы системно — список всех статей, желательно по категориям — такого уже нет. Ну хотя бы в алфовитном порядке (в MacOS -версии не нашел).

Держи список всех статей 2018 года.
1. en_all_novid_2018-10.7z
2. ru_all_novid_2018-07.7z

Есть такая штука называется zimtools.

zimbench
zimcheck
zimdiff
zimdump
zimpatch
zimrecreate
zimsearch
zimsplit
zimwriterfs


Названия извлечены мною с помощью zimbench из zim файла википедии и я их немного подрезал регулярным выражением. А если хочешь запаковать zim файлы, тогда используй zimwriterfs.

Можешь посмотреть как я запаковал документацию по Qt 5.9.9, включая так же переведённую автопереводом, по крайне мере пока ещё есть этот сайт.
1. qt599_en
2. qt599_ru

Есть такая штука как kiwix-tools.

kiwix-manage
kiwix-search
kiwix-serve

Можно запустить свой сервер с помощью kiwix-serve с определёнными настройками и пробросить показ через nginx. Получается сайт из документации zim.

Кстати, вот сама документация тоже на сайте, допустима ссылка с обрезкой даты.
1. wikipedia_en_all_novid
2. wikipedia_ru_all_novid

Почему википедия такая старая я объяснял здесь.
Борьба с битыми ссылками в html5

S>И тут дело даже не в Kiwix. Вообще в современном мире исчезает стремление к категоризации и структуризации информации, стремление владеть информацией. Т.е. если в с чем-то не сталкивались и не сможете ввести запрос — вы лишены шансов вообще узнать об этом явлении, оно так и останется сокрыто от вас.


Я считаю это связано с глубокой сетью. Публичные данные защищены с помощью авторского и копирайтного права. Даже если кто-то упорядочит информацию, за её публикацию можно нарваться на иск, который заставит выплатить кучу денег и всё стереть. Защищает только мутный закон о научном цитировании. Но закон как дышло, как повернул так и вышло.

Плюс тебе никто не даст доступ к конфиденциальным данным и не только о бухгалтерии, но и об используемых технологиях. Ты потенциальный конкурент, да и в принципе. Не нравится, замути тогда что-то свое в духе Ричарда Столлмана. Создавай за деньги, раздавай бесплатно.

S>При этом старая школа как бы пыталась охватить все и содержать в узде все сферы познания.


Старая школа пользовалась бумагой. Чтобы тебя привлечь за что-то надо было физически к тебе ворваться и начать обыск. По факту то, что у людей хранилось на бумаге и было глубокой сетью, только в данном случае не сетью, а глубоким бумажным хранилищем.

Может где-то что-то и лежит интересное, но не для тебя. У тебя просто нет доступа к этой информации. А всякие гуглы и яндексы не могут нарушать закон.

Вот возьми для примера гугл книги. Когда-то были статьи как они хвастались промышленным сканером с отличным качеством скана, а не всяким самопалом от энтузиастов.

Начиналось.

Google Книги (англ. Google Books, Google Print, Project Ocean) — масштабный проект компании Google, запущенный в 2004 году и направленный на оцифровку и публикацию в интернете миллионов печатных произведений. Основная идея заключалась в том, чтобы сделать все когда-либо напечатанные книги доступными для чтения и поиска в интернете, обеспечив пользователям неограниченный доступ к знаниям. В 2010 году Google сообщила, что, по её оценкам, в мире насчитывается более 129 млн печатных изданий, которые компания планирует полностью оцифровать за 10 лет.

Закончилось.

В 2005 году Гильдия Авторов и ряд других издателей подали коллективный иск против Google, обвинив компанию в несанкционированном сканировании защищённых авторским правом материалов. Судебный процесс продолжался до 2016 года, после чего суд принял решение в пользу Google, определив, что сканирование материалов соответствует принципу добросовестного использования. Однако из-за нерешённых правовых споров оцифровка значительно замедлилась. По состоянию на 2023 год остаётся неясным, продолжает ли компания оцифровывать библиотечные издания.

Сканировать книги ты можешь, а потом это раздавать нет. И это открытая часть знаний, а как я уже выше написал есть и закрытая. Да и в принципе даже если что-то и лежит открытым, то ты об этом можешь попросту не знать. А какие у тебя есть варианты, гугл, яндекс или пожаловаться на форуме. Ещё сейчас с чатгопотой некоторые развлекаются. А проблема здесь как раз в тренировке не искусственной, а естественной нервной сети, то есть человеческого мозга.

То что я хотел я написал в статье.
Интернет 3.0 или посторонним вход воспрещён
Намёк на веб 1.0 с распределёнными сайтами, веб 2.0 с агрегаторами и большая неизвестность по веб 3.0. И как раз про тебя раздел.

Что волнует потребителя

Его в общем-то ничего не волнует пока его подкармливают "вкусной" информацией. А вот, когда поток превращается в помои, а то и вовсе исчезает, он начинает задумываться где бы добыть "хавчик". Но хавчик делает "хозяин" и ему как правило за это никто не платил, всё уже давно забрал "паразит", так как именно "паразит" умеет монетизировать потребителя отбирая "хавчик" у хозяина и передавая его потребителю вместе с рекламой.


Кстати, ещё статья про агрегаторы.
Антиаггрегаторы как новый виток развития технологий.

А если кратко, то ты как и миллиарды других людей не плательщики. Ты не платишь, но хочешь что-то получить. Тебя уже приучили, что всё можно поиметь на халяву, но как оказалось нет.

Инструкцию я тоже уже дал в статье.

Потребитель ищет "хавчик"

Потребитель ищет "хавчик" и:
1) Находит.
2) Не находит.

Если находит, то хорошо.

Но что делают люди, когда еды нет.
1) Один из очевидных вариантов приготовить её самому. В этом случае качество целиком будет зависеть от повара. Хотя большинство не станут этого делать.
2) Можно поныть на каком-нибудь интернет ресурсе, что еды нет, накормите меня. Хорошо, если кто кинет ссылку на что-то полезное в обход "паразитов".
3) Или можно долбить паразитов в надежде, что они смилостивятся, и осчастливят потребителя ссылкой на полезное содержимое.

 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.