Что считается big data? - Базы данных

Здравствуйте, TMU_1, Вы писали:

G>>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?

TMU>Я бы предложил такое неформализованное определение, пересекающееся с тем, что дал Sharov:
TMU>когда традиционные РСУБД не тянут либо требуют невменяемых вложений в железо и приходится прибегать к новомодным примочкам типа NoSQL-инструментов.

мне не нужно точное определение, мне нужно примерное и простое.

Здравствуйте, xy012111, Вы писали:

X>Здравствуйте, Grienders, Вы писали:

G>>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?

X>Пять миллионов по меркам хоть сколько нибудь приличной БД это "тьфу". Пять миллиардов — это хорошо. Если ещё на три порядка больше, я бы это отнёс уже к бигдате.

это сколько по кол-ву записей и по размеру самой БД примерно?

можно ли развернуть эту биг дату у себя на компе, чтобы потренироваться?

Здравствуйте, Grienders, Вы писали:

G>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?

Нет. Бигдата, это когда данные не влазят на один сервер и приходится извращаться. Если считать в строках, то проблемы у РСУБД начинаются где-то от 100 миллионов. На определенном объеме даже банальная рекомендация "создайте индексы" начинает проходить по разряду "вредных советов".

Здравствуйте, Grienders, Вы писали:

G>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?

big data -- понятие сугубо неформальное, никаких формальных рамок нет.
5 млн записей -- это точно не бигдата, это обычные объёмы.
О big data говорят обычно когда в БД находится от нескольких миллиардов записей.
Но и это теперь уже маловато, я например оперировал базой данных в 55 миллиардов записей.

Здравствуйте, MozgC, Вы писали:

MC>Фиг его знает, кто там что себе придумал под этим словом

Имхо, это когда как минимум терабайты или даже десятки терабайт данных.

В байтах размеры БД никто не мериит. Мериют в кол-ве записей.

Здравствуйте, vsb, Вы писали:

vsb>Когда приходится начинать расставлять индексы в таблицах. 5 млн, примерная граница.
vsb>Если запросы сложные, big data может наступить раньше

Это сугубо неверное определение, хотя, ещё раз, определения быть и не может, понятие весьма неформальное.

Здравствуйте, xy012111, Вы писали:

X>Пять миллионов по меркам хоть сколько нибудь приличной БД это "тьфу". Пять миллиардов — это хорошо. Если ещё на три порядка больше, я бы это отнёс уже к бигдате.

Нет, именно от нескольких миллиардов.
На три порядка больше -- это 1000 миллиардов, это очень много, таких данных, думаю, сейчас никто не держит,
да и взять их наверное негде. Мы набирали по всему миру данные на 50-60 миллиардов с трудом.
Ну, конечно, я имею в виду реальные данные, а не сгенерированные.

Здравствуйте, Grienders, Вы писали:

G> это сколько по кол-ву записей и по размеру самой БД примерно?
G> можно ли развернуть эту биг дату у себя на компе, чтобы потренироваться?

Что тебе мешает тренироваться на любом объеме?

Если не можешь без конкретики, придумай себе источник данных, дающий прирост от гигабайта в сутки. И наслаждайтся.

Метеостанции, камеры наблюдения, выдача Гугла, меджународные банки открытых данных, сигналы из космоса... Вариантов множество.

Hardware eventually fails. Software eventually works. ::: avalon/1.0.442

Здравствуйте, MasterZiv, Вы писали:

MZ>да и взять их наверное негде. Мы набирали по всему миру данные на 50-60 миллиардов с трудом.
MZ>Ну, конечно, я имею в виду реальные данные, а не сгенерированные.

У нас, например, сырых данных 1.5-2 миллиарда строк в сутки. При этом на рынке мы далеко не в топе, даже не в первой двадцатке.

Здравствуйте, MasterZiv, Вы писали:

X>>Пять миллионов по меркам хоть сколько нибудь приличной БД это "тьфу". Пять миллиардов — это хорошо. Если ещё на три порядка больше, я бы это отнёс уже к бигдате.

MZ>Нет, именно от нескольких миллиардов.
MZ>На три порядка больше -- это 1000 миллиардов, это очень много, таких данных, думаю, сейчас никто не держит,
MZ>да и взять их наверное негде. Мы набирали по всему миру данные на 50-60 миллиардов с трудом.
MZ>Ну, конечно, я имею в виду реальные данные, а не сгенерированные.

Спасибо, может вы и правы. Я в своих оценках исходил из того, что петабайтами данных уже никого не удивишь, поэтому терабайт строк и показался вполне достижимой величиной. А десяток миллиардов — мне кажется, это объём вполне себе поднимаемый для реляционки, поэтому я с запасом назвал цифирь.

Здравствуйте, MasterZiv, Вы писали:

MZ>В байтах размеры БД никто не мериит. Мериют в кол-ве записей.

Да ну?

Здравствуйте, MozgC, Вы писали:

Здравствуйте, Sharov, Вы писали:

S>Здравствуйте, Grienders, Вы писали:

G>>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?

S>Когда проходил курс на курсере по теме, и там лектор дал неплохое определение -- мол это такие или столько данных, при обработке которых ломаются ваши обычные инструменты.

Тогда big data просто не существуют

Здравствуйте, Milena, Вы писали:

M>Здравствуйте, Grienders, Вы писали:

G>>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?

M>Гораздо больше. В литературе по Big Data принято считать, что дело даже не столько в том, сколько строк, а в том, что само хранилище и обработка уже работает по-другому. То есть обычная RDBMS с 1млрд. Строк — это не Big Data.

Ага, а монга с хадупом и 300мб базой это бигдата, да!

Здравствуйте, Miroff, Вы писали:

M>У нас, например, сырых данных 1.5-2 миллиарда строк в сутки. При этом на рынке мы далеко не в топе, даже не в первой двадцатке.

Ну так публикуйте в виде RDF, что же вы ждёте -- и будет вам слава и почёт!

Здравствуйте, MozgC, Вы писали:

MC>Здравствуйте, MasterZiv, Вы писали:

MZ>>В байтах размеры БД никто не мериит. Мериют в кол-ве записей.

MC>Да ну?

Точно тебе говорю!

Один фильм DVD в блобе -- одна запись, или может 40-50, если с подробностями. Но это 4 Гб.
Сложность оперировать такими данными — 0.

Здравствуйте, Grienders, Вы писали:

G>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?

с технической стороны уже ответили.
но как по мне, бигдата — это не совсем чисто технический вопрос из серии "сколько зерен уже куча", и "сколько записей в БД уже бигдата".

концептуально, бигдата — это хранение ВСЕХ данных, например, если владелец вебсервера захочет провести какое-то исследование, и у него сохранены ВСЕ логи за все время — он это может сделать. а если он сохранял только базовую инфу типа кол-во хитов и логи за последнюю неделю — не сможет.

огромный размер данных это скорее следствие такого подхода.

Здравствуйте, Grienders, Вы писали:

G>Что считается big data

Здравствуйте, Нахлобуч, Вы писали:

Н>Здравствуйте, Grienders, Вы писали:

G>>Что считается big data

Н>Image: big_data_borat.png
Не актуально, data model в excel держит до 2млрд строк и гигабайты данных (в сжатом виде).

	От:	paucity
	Дата:	31.07.15 15:46
	Оценка:

	От:	Grienders
	Дата:	03.08.15 04:40
	Оценка:

	От:	Grienders
	Дата:	03.08.15 04:42
	Оценка:

	От:	Miroff
	Дата:	03.08.15 05:00
	Оценка:

	От:	MasterZiv
	Дата:	03.08.15 06:49
	Оценка:

От:	MozgC	http://nightcoder.livejournal.com
Дата:	03.08.15 13:28
Оценка:

От:	ZAMUNDA	для жалоб и предложений
Дата:	03.08.15 19:18
Оценка:

От:	gandjustas	http://blog.gandjustas.ru/
Дата:	04.08.15 06:33
Оценка:	+1

От:	Нахлобуч	https://hglabhq.com
Дата:	04.08.15 07:51
Оценка: