Здравствуйте, TMU_1, Вы писали:
G>>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?
TMU>Я бы предложил такое неформализованное определение, пересекающееся с тем, что дал Sharov: TMU>когда традиционные РСУБД не тянут либо требуют невменяемых вложений в железо и приходится прибегать к новомодным примочкам типа NoSQL-инструментов.
мне не нужно точное определение, мне нужно примерное и простое.
Здравствуйте, xy012111, Вы писали:
X>Здравствуйте, Grienders, Вы писали:
G>>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?
X>Пять миллионов по меркам хоть сколько нибудь приличной БД это "тьфу". Пять миллиардов — это хорошо. Если ещё на три порядка больше, я бы это отнёс уже к бигдате.
это сколько по кол-ву записей и по размеру самой БД примерно?
можно ли развернуть эту биг дату у себя на компе, чтобы потренироваться?
Здравствуйте, Grienders, Вы писали:
G>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?
Нет. Бигдата, это когда данные не влазят на один сервер и приходится извращаться. Если считать в строках, то проблемы у РСУБД начинаются где-то от 100 миллионов. На определенном объеме даже банальная рекомендация "создайте индексы" начинает проходить по разряду "вредных советов".
Здравствуйте, Grienders, Вы писали:
G>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?
big data -- понятие сугубо неформальное, никаких формальных рамок нет.
5 млн записей -- это точно не бигдата, это обычные объёмы.
О big data говорят обычно когда в БД находится от нескольких миллиардов записей.
Но и это теперь уже маловато, я например оперировал базой данных в 55 миллиардов записей.
Здравствуйте, MozgC, Вы писали:
MC>Фиг его знает, кто там что себе придумал под этим словом Имхо, это когда как минимум терабайты или даже десятки терабайт данных.
В байтах размеры БД никто не мериит. Мериют в кол-ве записей.
Здравствуйте, xy012111, Вы писали:
X>Пять миллионов по меркам хоть сколько нибудь приличной БД это "тьфу". Пять миллиардов — это хорошо. Если ещё на три порядка больше, я бы это отнёс уже к бигдате.
Нет, именно от нескольких миллиардов.
На три порядка больше -- это 1000 миллиардов, это очень много, таких данных, думаю, сейчас никто не держит,
да и взять их наверное негде. Мы набирали по всему миру данные на 50-60 миллиардов с трудом.
Ну, конечно, я имею в виду реальные данные, а не сгенерированные.
Здравствуйте, Grienders, Вы писали:
G> это сколько по кол-ву записей и по размеру самой БД примерно? G> можно ли развернуть эту биг дату у себя на компе, чтобы потренироваться?
Что тебе мешает тренироваться на любом объеме?
Если не можешь без конкретики, придумай себе источник данных, дающий прирост от гигабайта в сутки. И наслаждайтся.
Метеостанции, камеры наблюдения, выдача Гугла, меджународные банки открытых данных, сигналы из космоса... Вариантов множество.
Hardware eventually fails. Software eventually works. ::: avalon/1.0.442
Здравствуйте, MasterZiv, Вы писали:
MZ>да и взять их наверное негде. Мы набирали по всему миру данные на 50-60 миллиардов с трудом. MZ>Ну, конечно, я имею в виду реальные данные, а не сгенерированные.
У нас, например, сырых данных 1.5-2 миллиарда строк в сутки. При этом на рынке мы далеко не в топе, даже не в первой двадцатке.
Здравствуйте, MasterZiv, Вы писали:
X>>Пять миллионов по меркам хоть сколько нибудь приличной БД это "тьфу". Пять миллиардов — это хорошо. Если ещё на три порядка больше, я бы это отнёс уже к бигдате.
MZ>Нет, именно от нескольких миллиардов. MZ>На три порядка больше -- это 1000 миллиардов, это очень много, таких данных, думаю, сейчас никто не держит, MZ>да и взять их наверное негде. Мы набирали по всему миру данные на 50-60 миллиардов с трудом. MZ>Ну, конечно, я имею в виду реальные данные, а не сгенерированные.
Спасибо, может вы и правы. Я в своих оценках исходил из того, что петабайтамиданных уже никого не удивишь, поэтому терабайт строк и показался вполне достижимой величиной. А десяток миллиардов — мне кажется, это объём вполне себе поднимаемый для реляционки, поэтому я с запасом назвал цифирь.
Здравствуйте, Sharov, Вы писали:
S>Здравствуйте, Grienders, Вы писали:
G>>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?
S>Когда проходил курс на курсере по теме, и там лектор дал неплохое определение -- мол это такие или столько данных, при обработке которых ломаются ваши обычные инструменты.
Здравствуйте, Milena, Вы писали:
M>Здравствуйте, Grienders, Вы писали:
G>>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?
M>Гораздо больше. В литературе по Big Data принято считать, что дело даже не столько в том, сколько строк, а в том, что само хранилище и обработка уже работает по-другому. То есть обычная RDBMS с 1млрд. Строк — это не Big Data.
Ага, а монга с хадупом и 300мб базой это бигдата, да!
Здравствуйте, Miroff, Вы писали:
M>У нас, например, сырых данных 1.5-2 миллиарда строк в сутки. При этом на рынке мы далеко не в топе, даже не в первой двадцатке.
Ну так публикуйте в виде RDF, что же вы ждёте -- и будет вам слава и почёт!
Здравствуйте, Grienders, Вы писали:
G>Что считается big data, сколько примерно строк должно быть в базе? Например, 5 млн — это уже биг?
с технической стороны уже ответили.
но как по мне, бигдата — это не совсем чисто технический вопрос из серии "сколько зерен уже куча", и "сколько записей в БД уже бигдата".
концептуально, бигдата — это хранение ВСЕХ данных, например, если владелец вебсервера захочет провести какое-то исследование, и у него сохранены ВСЕ логи за все время — он это может сделать. а если он сохранял только базовую инфу типа кол-во хитов и логи за последнюю неделю — не сможет.
огромный размер данных это скорее следствие такого подхода.
Здравствуйте, Нахлобуч, Вы писали:
Н>Здравствуйте, Grienders, Вы писали:
G>>Что считается big data
Н>Image: big_data_borat.png
Не актуально, data model в excel держит до 2млрд строк и гигабайты данных (в сжатом виде).