Re: Экзотические модели и языки запросов к базам данных - Декларативное программирование

On 18.03.2014 12:25, chukichuki wrote:

> Кстати, может подскажите что-нибудь почитать по внутренней организации
> распределенных RDF хранилищ?

У нас было (оно и сейчас есть) хранилище в виде реляционной БД.
Нормализованной. С columnstore и векторной обработкой данных.

Возник вопрос относительно этой самой
> масштабируемости. Кругом пишут про RDF и всякие облачные технологии. Не
> могу себе представить как правильно RDF данные разложить на
> вычислительном кластере, чтобы обеспечить эту самую масштабируемость.

Ну, просто hash-based partitioning по идентификатору subject-а триплов
по всем серверам кластера.

> Получается, что типовой SPARQL-запрос -- это по сути куча "перевязок"
> между тройками.

Да.

Если тройки как-то произвольно-равномерно распределять
> между узлами кластера, то интуитивно кажется, что при выполнении запроса
> сильно потеряем на пересылки промежуточных результатов этих "перевязок".

Ну... не очень понятно. Смотря какой запрос, наверное.

> Если тройки как-то объединять в связанные подграфы, а подграфы
> разместить каждый на отдельном узле, то рискуем не получить равномерного
> распределения данных между узлами кластера. Любопытная задача. Как-то
> было дело, столкнулся с проблемой обработки больших графов. Была идея
> использовать кластер. До практики дело, правда, не дошло. Хочется
> посмотреть как данную задачу решают в RDF-хранилищах.

Можешь почитать. Тут описана вся схема данных, с партицированием.

http://docs.openlinksw.com/virtuoso/rdfperformancetuning.html#rdfperfgeneral

Posted via RSDN NNTP Server 2.1 beta

Здравствуйте, MasterZiv, Вы писали:

>> Хм, я не уверен что это хорошая идея, но я очень плохо знаком с OLAP.
>> Все-таки масштабируемость RDF пока не дотягивает до реляционных
>> хранилищ

MZ>У меня есть опыт работы с хранилищем на 55 миллиардов триплов.
MZ>Положительный. Я бы сказал, очень положительный. Если ещё учесть, что
MZ>триплов у меня предвидится гораздо меньше ( как минимум на 3 порядка ),
MZ>то всё это очень привлекательно выглядит.

Ну тогда хорошо, раз есть. Просто единственный известный мне серьезный SPARQL бенчмарк с такого рода запросами (BSBM Business Intelligence) ворочается весьма медленно уже на 1B на известных мне СУБД (насчет кластерных не знаю). Но, опять-таки, я не знаю какие у тебя запросы и какое железо.

PS. А что за триплстор, или это военная тайна? =)

On 18.03.2014 15:12, kl wrote:

> Ну тогда хорошо, раз есть. Просто единственный известный мне серьезный
> SPARQL бенчмарк с такого рода запросами (BSBM Business Intelligence
> <http://wifo5-03.informatik.uni-mannheim.de/bizer/berlinsparqlbenchmark/spec/BusinessIntelligenceUseCase/>)
> ворочается весьма медленно уже на 1B на известных мне СУБД (насчет
> кластерных не знаю).

Да, помню. Пускал. Результаты не помню.

> PS. А что за триплстор, или это военная тайна? =)

Почему же тайна ? Virtuoso.

Posted via RSDN NNTP Server 2.1 beta

Здравствуйте, chukichuki, Вы писали:

C>Здравствуйте, Mystic, Вы писали:

M>>Графы практически полностью лежат вне покрытия реляционными БД. Т. е. оно то, конечно, возможно... Но простой запрос типа: вывести все вершины на расстоянии на более заданного. И как быть? Так что для полноты надо смотреть еще в сторону graph database.

C>Да, тут согласен. Графовые СУБД -- отдельный вопрос. Я их рассматривал, но опять-таки очень поверхностно. На уровне беглого просмотра википедии и всяких разных helloworld-ов и howto. Как я понял, основная их особенность -- это именно разного рода операции поиска по графу в глубину, в ширину, поиск путей из одного узла в другой и т.п. На мой взгляд весьма специфические операции. Может порекомендуете с чего можно начать, чтобы разобраться с этими СУБД поподробнее: cтатьи, книги, сайты, может какие-нибудь "правильные" реализации графовых СУБД ?

OrientDB — http://www.orientechnologies.com/orientdb/ + поддержка документов.

Здравствуйте, chukichuki, Вы писали:

C>... Может порекомендуете с чего можно начать, чтобы разобраться с этими СУБД поподробнее: cтатьи, книги, сайты, может какие-нибудь "правильные" реализации графовых СУБД ?

Кроме OrientDB, ещё одна классика: http://www.neo4j.org, плюс стек над графбазами: http://www.tinkerpop.com
На базе neo4j — http://animotron.org (презентация), интересная концепция на основе прологоподобного языка.

До кучи, любопытное объектное расширение над реляционной СУБД: http://rxo-project.com/solution

Здравствуйте, PSV100, Вы писали:

C>>... Может порекомендуете с чего можно начать, чтобы разобраться с этими СУБД поподробнее: cтатьи, книги, сайты, может какие-нибудь "правильные" реализации графовых СУБД ?

PSV>ещё одна классика: http://www.neo4j.org

+1

PSV>На базе neo4j — http://animotron.org (презентация), интересная концепция на основе прологоподобного языка.

А это [пока] нельзя воспринимать серьезно.

Здравствуйте, PSV100, Вы писали:

PSV>Здравствуйте, chukichuki, Вы писали:

C>>... Может порекомендуете с чего можно начать, чтобы разобраться с этими СУБД поподробнее: cтатьи, книги, сайты, может какие-нибудь "правильные" реализации графовых СУБД ?

PSV>Кроме OrientDB, ещё одна классика: http://www.neo4j.org, плюс стек над графбазами: http://www.tinkerpop.com

там цена 12K$ vs 0 у OrientDb причем без всяких преимуществ перед последней, а даже еще и меньше фишек и больше тормозов.

Здравствуйте, _Claus_, Вы писали:

_C_>Здравствуйте, PSV100, Вы писали:

PSV>>Здравствуйте, chukichuki, Вы писали:

C>>>... Может порекомендуете с чего можно начать, чтобы разобраться с этими СУБД поподробнее: cтатьи, книги, сайты, может какие-нибудь "правильные" реализации графовых СУБД ?

PSV>>Кроме OrientDB, ещё одна классика: http://www.neo4j.org, плюс стек над графбазами: http://www.tinkerpop.com

_C_>там цена 12K$ vs 0 у OrientDb причем без всяких преимуществ перед последней, а даже еще и меньше фишек и больше тормозов.

чтобы не голословно https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnx0b2t5b3RlY2hzdXp1bXVyYWxhYmVuZ3xneDoyMGRiOGFlM2Y2OGY5Mzhj

_C_>>там цена 12K$ vs 0 у OrientDb причем без всяких преимуществ перед последней, а даже еще и меньше фишек и больше тормозов.
_C_>чтобы не голословно https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnx0b2t5b3RlY2hzdXp1bXVyYWxhYmVuZ3xneDoyMGRiOGFlM2Y2OGY5Mzhj

Most of the databases are not distributed, which is a limitation of this study.

Что они измеряли тогда?

C>Да, тут согласен. Графовые СУБД -- отдельный вопрос. Я их рассматривал, но опять-таки очень поверхностно. На уровне беглого просмотра википедии и всяких разных helloworld-ов и howto. Как я понял, основная их особенность -- это именно разного рода операции поиска по графу в глубину, в ширину, поиск путей из одного узла в другой и т.п. На мой взгляд весьма специфические операции.

Ничего специфического. Физические сети, сойиальные сети, travelling salesman, FSM'ы, и еще миллион задач — это все графы. Примеры некоторых задач можно посмотреть тут: https://github.com/neo4j-contrib/graphgist/wiki

	От:	MasterZiv
	Дата:	18.03.14 11:09
	Оценка:

От:	kl	http://stardog.com
Дата:	18.03.14 11:12
Оценка:

	От:	MasterZiv
	Дата:	18.03.14 14:33
	Оценка:

	От:	_Claus_
	Дата:	18.03.14 14:53
	Оценка:

	От:	PSV100
	Дата:	19.03.14 14:08
	Оценка:

От:	Mamut	http://dmitriid.com
Дата:	01.05.14 23:11
Оценка: