Глобальная база знаний человечества - какой может быть?
От: Shmj Ниоткуда  
Дата: 07.07.24 04:15
Оценка:
Вот, ранее вопрос не стоял, т.к. за 1 жизнь человек может обработать не более 1 гигабайта текстовых данных (в plain text). Т.е. сильно не разгонишься.

Сейчас же есть нейросети эти, в которые можно загрузить терабайты данных и они их как-то обработают и смогут выдавать на основе этих данных решения.

Вот тут чел. предположил
Автор: xma
Дата: 07.07 05:38
, что в будущем будет акцент на технологиях для работы именно с предобученной нейросеткой (сделать это дешево и быстро). Т.е. в каждом мелком девайсе будет возможность запустить предобученную нейросетку, которая оперирует терабайтами а то и петабайтами ценных знаний и просто выдает ответ или решает задачу локально.

И тогда станет вопрос — а где брать данные для обучения? Если технологии могут вобрать в себя петабайты — то где брать эти полезные петабайты?

Вот, есть условно открытые знания — как то системы вопросов-ответов с рейтингом, типа SOF. Вроде на них обучить проще всего. Так же, наверное, можно использовать различные верифицированные справочники, энциклопедии и пр.

Вроде всего много, но на самом деле не так уж много. Тем более знания повторяются, уникальных мало.

Это похоже на глобальный проект, типа глобальной сети Интернет. Т.е. уже выходит за рамки просто коммерческого проекта. Всем странам придется объединиться, чтобы создать и поддерживать глобальную базу знаний всего человечества, в которой было бы все, что только можно назвать полезным знанием.

Периодически эту базу должны пополнять, скорее всего пакетами. Типа раз в день — вводятся знания о событиях (из новостей) Раз в месяц — события из научного мира. И т.д.

Пока все разрозненно и некую централизацию обеспечивают лишь поисковые системы. С появлением мощностей и анализатора — подход может измениться.

Ваше мнение.
Отредактировано 07.07.2024 4:17 Shmj . Предыдущая версия .
Re: Глобальная база знаний человечества - какой может быть?
От: kov_serg Россия  
Дата: 07.07.24 11:51
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Вот, есть условно открытые знания — как то системы вопросов-ответов с рейтингом, типа SOF. Вроде на них обучить проще всего. Так же, наверное, можно использовать различные верифицированные справочники, энциклопедии и пр.

Как много бесплатных полезных данных в открытом доступе. Даже банальные книги кругом "конец ознакомительного фрагмента" а теперь купи. А вы хотите что бы право торговцы поделились данными даром? Вы видели вообще сколько стоят нормальные справочники? Более того дальше будут еще больше закручивать гайки ибо знания плебеям не положены.

S>Вроде всего много, но на самом деле не так уж много. Тем более знания повторяются, уникальных мало.

Полезность знаний очень сильно варьируется. Более того есть вообще псевдознания и лженаука, занимающаяся не знаниями, а выбиванием денег, под разные чудные направления.

S>Это похоже на глобальный проект, типа глобальной сети Интернет. Т.е. уже выходит за рамки просто коммерческого проекта. Всем странам придется объединиться, чтобы создать и поддерживать глобальную базу знаний всего человечества, в которой было бы все, что только можно назвать полезным знанием.

Полезным для чего? У нас что ринулись инженеров выращивать, для покорения космоса?

S>Периодически эту базу должны пополнять, скорее всего пакетами. Типа раз в день — вводятся знания о событиях (из новостей) Раз в месяц — события из научного мира. И т.д.

Типа очередное открытие плоскоземельщиков и новые достижения астрологии.

S>Пока все разрозненно и некую централизацию обеспечивают лишь поисковые системы. С появлением мощностей и анализатора — подход может измениться.

Интернет пока заполняется в основном мусором, зато в огромных масштабах.

ps: Главная задача обеспечить человеков энергией. Если человечество не обеспечит 2кВт уст мощности на человека, будет лютый треш и средневековье и никакие искуственные интелекты не помогут.
Re[2]: Глобальная база знаний человечества - какой может быть?
От: Shmj Ниоткуда  
Дата: 07.07.24 11:57
Оценка:
Здравствуйте, kov_serg, Вы писали:

S>>Вроде всего много, но на самом деле не так уж много. Тем более знания повторяются, уникальных мало.

_>Полезность знаний очень сильно варьируется. Более того есть вообще псевдознания и лженаука, занимающаяся не знаниями, а выбиванием денег, под разные чудные направления.

Знание лженауки так же в некоторых случаях может быть полезным для установления фактов. К примеру, знаем что по лженауке имена давали людям в зависимости от даты рождения. И этот факт в некоторых случаях может помочь уточнить дату, для чего-то это может быть важно.
Re: Глобальная база знаний человечества - какой может быть?
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 08.07.24 07:02
Оценка:
Здравствуйте, Shmj, Вы писали:

S>И тогда станет вопрос — а где брать данные для обучения? Если технологии могут вобрать в себя петабайты — то где брать эти полезные петабайты?


Если мы про текст, то нигде. По разным расчётам, данных для обучения ещё хватит на 2-5 лет и всё. При этом ещё как-то отделять человеческие данные от сгенерированных.
Дальше надо будет учиться не так тупо, перемалывая петабайты данных, а сознавать модели мира, онтологии и т.д., чтобы знания помещались куда следует. В таком случае, объём данных для обучения можно будет уменьшить.

Если говорить про другую информацию (звуки, фото, видео, другие сенсоры), то объём этих данных неограничен, можно брать нейросеть, запихивать в робота и пускать его кататься по миру, пусть просвещается хоть до посинения.
Re[2]: Глобальная база знаний человечества - какой может быть?
От: Shmj Ниоткуда  
Дата: 08.07.24 07:33
Оценка:
Здравствуйте, Nuzhny, Вы писали:

N>Если мы про текст, то нигде. По разным расчётам, данных для обучения ещё хватит на 2-5 лет и всё. При этом ещё как-то отделять человеческие данные от сгенерированных.


Ну может еще не все учли. Кроме того, новые данные же постоянно появляются.

Нужно оформить в виде единой базы и поддерживать.

N>Если говорить про другую информацию (звуки, фото, видео, другие сенсоры), то объём этих данных неограничен, можно брать нейросеть, запихивать в робота и пускать его кататься по миру, пусть просвещается хоть до посинения.


А какие задачи это поможет решить?
Re[3]: Глобальная база знаний человечества - какой может быть?
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 08.07.24 08:39
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Ну может еще не все учли. Кроме того, новые данные же постоянно появляются.


Данные появляются, но не с такой скоростью, как их потребляют нейронки. Так что скоро упрётся в тот факт, что данные кончатся.
С другой стороны, как я выше упомянул, автором многих новых данных становятся либо сами нейросети, либо в соавторстве с человеком. Ценность таких данных низкая, надо как-то отделять.
Вторая проблема — размеры нейросетей увеличиваются, а значит должен увеличиваться и объём данных для обучения. Для очередной большой нейросети однажды просто не хватит данных, на человеческих текстах уже понятно, что бесконечно расти не получится. Предел размера нейросетей просто из-за нехватки данных уже приближается.

Поэтому сейчас и пытаются менять подход: учить не фактам, а знаниям. Стараются, чтобы нейросети учили не сами данные, а закономерности. Я уже приводил где-то на форуме ссылку на работу, где сеть учат на Гарри Поттере так, чтобы она его хорошо знала, но в ответах не цитировала оттуда текст. Это важный вопрос не только в плане обучения, но и копирайта и в принципе безопасности применения на практике.

S>Нужно оформить в виде единой базы и поддерживать.


Сейчас частные компании как раз и делают себе такие базы. Гитхаб, SO, Reddit, X/Twitter, социальные сети — ценность всех этих компаний резко выросла только благодаря объёму данных. Данные из разных источников аккумулируются, зачастую авторы контента судятся.

N>>Если говорить про другую информацию (звуки, фото, видео, другие сенсоры), то объём этих данных неограничен, можно брать нейросеть, запихивать в робота и пускать его кататься по миру, пусть просвещается хоть до посинения.

S>А какие задачи это поможет решить?

Лучше выстраивать закономерности. Можно ли по текстовому описанию явления оставить полную его модель? А потексту и фото? По тексту и видео? Если добавить звук? Например, попробуй представить пение соловья, прочитав описание того, как он поёт. Воспроизведёшь?
Теперь представь пение соловья утром, днём, вечером. В тихом яблочном саду на побережье, на рассвете, когда тепло, но не жарко, лёгкий бриз холодит кожу. Ну и т.д.
Вспомним Витгеншнейна и его теорию об языке. Формирует ли язык мышление и сознание? Очевидно, что у человека нет, он более комплексное сознание.
Re[4]: Глобальная база знаний человечества - какой может быть?
От: Shmj Ниоткуда  
Дата: 08.07.24 11:08
Оценка:
Здравствуйте, Nuzhny, Вы писали:

S>>Нужно оформить в виде единой базы и поддерживать.


N>Сейчас частные компании как раз и делают себе такие базы. Гитхаб, SO, Reddit, X/Twitter, социальные сети — ценность всех этих компаний резко выросла только благодаря объёму данных. Данные из разных источников аккумулируются, зачастую авторы контента судятся.


Сколько примерно полезных терабайт текстовых данных всего человечеством нагенерено?

В том то и дело что судятся. Но если данных относительно не много (скажем, около 100 терабайт) — все-равно со временем оно утечет и будет доступно всем. Не лучше ли вместо того, чтобы судиться — направить силы на кооперацию? Создать единую базу открытую для всех (ну, или, скажем, оплатить трафик нужно).
Re[5]: Глобальная база знаний человечества - какой может быть?
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 08.07.24 11:25
Оценка: 2 (1)
Здравствуйте, Shmj, Вы писали:

S>В том то и дело что судятся. Но если данных относительно не много (скажем, около 100 терабайт) — все-равно со временем оно утечет и будет доступно всем. Не лучше ли вместо того, чтобы судиться — направить силы на кооперацию? Создать единую базу открытую для всех (ну, или, скажем, оплатить трафик нужно).


Наверное около сотни и есть.
Можешь посмотреть на список открытых датасетов..
Здесь пишут, что "OpenAI trained GPT-3 with 45 TB of textual data curated from various sources".
Стэнфорд прогнозирует, что данных хватит до 2026-2032 годов — очень широкая граница.
Re[6]: Глобальная база знаний человечества - какой может быть?
От: vsb Казахстан  
Дата: 08.07.24 11:52
Оценка: 2 (1)
Здравствуйте, Nuzhny, Вы писали:

N>Наверное около сотни и есть.

N>Можешь посмотреть на список открытых датасетов..
N>Здесь пишут, что "OpenAI trained GPT-3 with 45 TB of textual data curated from various sources".
N>Стэнфорд прогнозирует, что данных хватит до 2026-2032 годов — очень широкая граница.

Я предполагаю, что если убрать копирайт, то проблемы не будет. Книг ведь очень много. Подозреваю, что если этот вопрос встанет ребром, те же китайцы копирайт будут игнорировать, а за ними и остальные потянутся.
Re[7]: Глобальная база знаний человечества - какой может быть?
От: Shmj Ниоткуда  
Дата: 08.07.24 12:17
Оценка:
Здравствуйте, vsb, Вы писали:

vsb>Я предполагаю, что если убрать копирайт, то проблемы не будет. Книг ведь очень много. Подозреваю, что если этот вопрос встанет ребром, те же китайцы копирайт будут игнорировать, а за ними и остальные потянутся.


Особенно если не будет простого способа проверить откуда взята та или иная инфа и обвинить в нарушении прав.
Re[3]: Глобальная база знаний человечества - какой может быть?
От: kov_serg Россия  
Дата: 14.07.24 12:42
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Знание лженауки так же в некоторых случаях может быть полезным для установления фактов. К примеру, знаем что по лженауке имена давали людям в зависимости от даты рождения. И этот факт в некоторых случаях может помочь уточнить дату, для чего-то это может быть важно.


https://www.yaplakal.com/forum7/topic2803066.html
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.