Добрый День !
Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
Вот прототип, можно попробовать примеры запросов:
Джобс, Айфон, Андроид и тд....
Здравствуйте, BoobenCom, Вы писали:
BC>Добрый День ! BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится. BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
BC>Вот прототип, можно попробовать примеры запросов: BC>Джобс, Айфон, Андроид и тд....
А вообще прикольно. Но только по запросу "путин" выдача для всех сайтов одинакова.
На dou.ua явно должно быть больше.
Здравствуйте, Sharov, Вы писали:
S>Здравствуйте, BoobenCom, Вы писали:
BC>>Добрый День ! BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится. BC>>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
BC>>Вот прототип, можно попробовать примеры запросов: BC>>Джобс, Айфон, Андроид и тд....
S>А вообще прикольно. Но только по запросу "путин" выдача для всех сайтов одинакова. S>На dou.ua явно должно быть больше.
S>Ps: я против политических флеймов в этой ветке.
Доу слишко маленькя база, попробуйте по базе sql.ru или searchengines.guru
Здравствуйте, nikov, Вы писали:
N>Здравствуйте, BoobenCom, Вы писали:
BC>>Добрый День ! BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>>0,5 ТБ ресурсов.
N>Когда планируется проиндексировать остальные 5 млн. ТБ? (а по некоторым оценкам, вместе с видео и прочими бинарными данными, около 500 млн. ТБ)
Откуда эта цифра ?
По информации яндекса размеры текстовой инфорации в рунете около 100 ТБ
Здравствуйте, BoobenCom, Вы писали:
BC>Откуда эта цифра ? BC>По информации яндекса размеры текстовой инфорации в рунете около 100 ТБ
Сколько процентов составляет рунет от всего интернета?
Забанили по IP, значит пора закрыть эту страницу.
Всем пока
BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится. BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
Молодец! Не слушай никого пиши. Все лучше чем водку жрать
Жизнь не обязана доставлять удовольствие. Достаточно отсутствия страданий.
Здравствуйте, CreatorCray, Вы писали:
BC>>Откуда эта цифра ? BC>>По информации яндекса размеры текстовой инфорации в рунете около 100 ТБ CC>Сколько процентов составляет рунет от всего интернета?
Что вы докопались до него? Автору, назвавшему свою поисковую машину "Сиськен", можно только пожелать успеха. Так что пожелайте успеха и прекратите подкалывать его.
Здравствуйте, BoobenCom, Вы писали:
BC>Вот прототип, можно попробовать примеры запросов:
1) В встроенном IE не работает. Либо укажи в заголовке <meta http-equiv="X-UA-Compatible" content="IE=edge" />, либо научи работать в IE6.
2) Первый же запрос, "пестня", выдал маловразумительный результат. Разные части документов имеют разную важность, это надо учитывать.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
Здравствуйте, AndrewVK, Вы писали:
AVK>Здравствуйте, BoobenCom, Вы писали:
BC>>Вот прототип, можно попробовать примеры запросов:
AVK>1) В встроенном IE не работает. Либо укажи в заголовке <meta http-equiv="X-UA-Compatible" content="IE=edge" />, либо научи работать в IE6.
Добавлю. Спасибо.
AVK>2) Первый же запрос, "пестня", выдал маловразумительный результат. Разные части документов имеют разную важность, это надо учитывать.
Во-первых слово написано с ошибкой.
Во-вторных, попробуйте поискать на крупных базах, например, sql.ru. Они не полностью айтишные
Здравствуйте, AndrewVK, Вы писали:
AVK>Я в sql.ru и искал. Гугл выдал нормальный результат, а вот твой поисковик нет.
На мобиле гугл мне выдал чтото про распарллеливание в С++.
На десктопе просто набор тем с заголовком. Это слишком просто.
Я заголовки принципиально не анализирую, а анализирую суть статей.
Кстате свой результат я считаю релевантней.
Потому что по запросу "Пестня" отискало тему, где нет в заголовке этого слова,
но есть куча куплетов разных песен.
Здравствуйте, BoobenCom, Вы писали:
BC>Кстате свой результат я считаю релевантней.
Таким манером ты сделаешь поисковик, который будет интересен только тебе. Да и вообще сложно что то понять, когда у тебя запрос может только из одного слова состоять.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится. BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
Здравствуйте, pestis, Вы писали:
P>Здравствуйте, BoobenCom, Вы писали:
BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится. BC>>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
P>А где исходники? Что-то не могу найти
Здравствуйте, AndrewVK, Вы писали:
AVK>Здравствуйте, BoobenCom, Вы писали:
BC>>Кстате свой результат я считаю релевантней.
AVK>Таким манером ты сделаешь поисковик, который будет интересен только тебе. Да и вообще сложно что то понять, когда у тебя запрос может только из одного слова состоять.
Здравствуйте, Ikemefula, Вы писали:
I>Вероятно поиск работает только на уникальных запросах, а то как такой выхлоп
I>"An item with the same key has already been added. "
Здравствуйте, AndrewVK, Вы писали:
AVK>Здравствуйте, BoobenCom, Вы писали:
BC>>Еще есть примеры "некорректной" работы ?
AVK>Говорить о близких к реальности примерах до того как оно у тебя по нескольким словам научится искать невозможно.
Тоесть с поиском по одному слову косяков ты не нашел ?
Ок, жди когда по фразе будет открыт поиск.
Здравствуйте, ramar, Вы писали:
R>Здравствуйте, BoobenCom, Вы писали:
BC>>Добрый День ! BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>>0,5 ТБ ресурсов.
R>Как индексируются страницы, кто и как добавляет их в базу? Как часто их надо обновлять? У вас будет база на 30Тб?
базы на 30 тб у меня не будет.
Ее не проблема проиндексировать, ее проблема выкачать. Это займет года.
все что я накачал, это 0.5 тб и качал не один месяц.
Здравствуйте, BoobenCom, Вы писали:
BC>Во-первых слово написано с ошибкой.
Пойчему с ойшибгой? Всио правельна с точке зренийа арфагравейи падонскага езыга.
Забанили по IP, значит пора закрыть эту страницу.
Всем пока
Здравствуйте, BoobenCom, Вы писали:
I>>Вероятно поиск работает только на уникальных запросах, а то как такой выхлоп
I>>"An item with the same key has already been added. "
BC>Как именно воспроизвести ?
прикольно, фиксил тут один баг.
Попробовал набрать слово могущество.
Первой темой вывело "Китай — ого".
В какойто мере поиск ведет себя как нейросеть, выдавая результаты со скрытым смыслом
Здравствуйте, BoobenCom, Вы писали:
BC>Еще есть примеры "некорректной" работы ?
Да. Ищу java — получаю кучу других слов в выдаче выделеных болдом. com, web, public.
Здравствуйте, -n1l-, Вы писали:
N>Здравствуйте, BoobenCom, Вы писали: BC>>Зачем писать сам сайт витрину на Си ? BC>>Может я отстал от жизни, но всеже
N>А зачем писать ее на asp.net'e? Плюс мне интересно действительно ли алгоритмы реализованы на си, что-то не верится что это не c#.
Здравствуйте, Blazkowicz, Вы писали:
B>Здравствуйте, BoobenCom, Вы писали:
BC>>Еще есть примеры "некорректной" работы ? B>Да. Ищу java — получаю кучу других слов в выдаче выделеных болдом. com, web, public.
Здравствуйте, BoobenCom, Вы писали:
BC>Добрый День ! BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится. BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
Если сам, один и с нуля написал, да еще на Си, то дай, так сказать, пожать руку. Достаточно круто получилось, даже можно на полном серьезе сравнить преимущества и недостатки с поиском гуглем на этих сайтах.
Кто-то скажет, что это задача простая и они одной левой такой курсовик писали за неделю вечерами, но на самом деле не всякий сможет.
Хотя, если честно, непонятен выбор языка Си для этой цели.
Здравствуйте, Michael7, Вы писали:
M>Хотя, если честно, непонятен выбор языка Си для этой цели.
Да вы что ребята. C# по сравнению с Си выглядит как примитивный скриптовый язык,
годится только для прототипирования. Шарп хорош чтоб обвесы писать. Ну там паучок хорошо пойдет
чтоб не морочить себе голову кодировками, а ядро должно быть только на Си — маст хев.
Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью
Здравствуйте, BoobenCom, Вы писали:
BC>Ее не проблема проиндексировать, ее проблема выкачать. Это займет года. BC>все что я накачал, это 0.5 тб и качал не один месяц.
Здравствуйте, BoobenCom, Вы писали:
BC>Здравствуйте, Michael7, Вы писали: BC>Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью
Которые решаются правильно спроектированным уровнем абстракции на C++, после чего остальной код выглядит опрятно, как высокоуровневый C#, а работает не медленнее этих ваших сей.
Здравствуйте, bazis1, Вы писали:
B>Здравствуйте, BoobenCom, Вы писали:
BC>>Здравствуйте, Michael7, Вы писали: BC>>Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью B>Которые решаются правильно спроектированным уровнем абстракции на C++, после чего остальной код выглядит опрятно, как высокоуровневый C#, а работает не медленнее этих ваших сей.
Когда я говорю написано на Си я не подрозумеваю использование компилятора Си одной из первых версий Дениса-Ричи.
Я подразумеваю что не использовались всякие STL и Boost'ы которые любят разные С++-сники.
Чем использовать это барахло, уж лучше сразу на С# переходить. А если кодить нормально, на максимальных возможностях ЭВМ,
то это Си без левых библиотек.
Здравствуйте, DreamMaker, Вы писали:
DM>Здравствуйте, BoobenCom, Вы писали:
BC>>Ее не проблема проиндексировать, ее проблема выкачать. Это займет года. BC>>все что я накачал, это 0.5 тб и качал не один месяц.
DM>GPRS что ли?
DM>почему С а не Asm?
Нет, не GPRS.
Просто любой приличный сервер не позволит себя досить и выдаст максимум 50кб\сек.
Здравствуйте, Alex912, Вы писали:
A>Здравствуйте, BoobenCom, Вы писали:
BC>>Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью
A>Про архитектуру в целом было интересно прочитать. Есть в планах написать статью?
Здравствуйте, BoobenCom, Вы писали:
BC>Когда я говорю написано на Си я не подрозумеваю использование компилятора Си одной из первых версий Дениса-Ричи. BC>Я подразумеваю что не использовались всякие STL и Boost'ы которые любят разные С++-сники. BC>Чем использовать это барахло, уж лучше сразу на С# переходить. А если кодить нормально, на максимальных возможностях ЭВМ, BC>то это Си без левых библиотек.
т.е. вы не используете инкапсуляцию для предотвращения лавинообразного роста сложности? не используете шаблоны для написания контейнеров, абстрагирующих работу с памятью? не используете RAII для автоматического освобождения объектов? ну-ну...
Здравствуйте, bazis1, Вы писали:
B>Здравствуйте, BoobenCom, Вы писали:
BC>>Когда я говорю написано на Си я не подрозумеваю использование компилятора Си одной из первых версий Дениса-Ричи. BC>>Я подразумеваю что не использовались всякие STL и Boost'ы которые любят разные С++-сники. BC>>Чем использовать это барахло, уж лучше сразу на С# переходить. А если кодить нормально, на максимальных возможностях ЭВМ, BC>>то это Си без левых библиотек. B>т.е. вы не используете инкапсуляцию для предотвращения лавинообразного роста сложности? не используете шаблоны для написания контейнеров, абстрагирующих работу с памятью? не используете RAII для автоматического освобождения объектов? ну-ну...
Простые структуры данных не сложно написать самому. Зато знаешь что там внутри и нет лишнего кода.
Сложные структуры, не грех и переписать, можно получить прирост производительности на порядок
Например так: http://wiki.pikosec.com/index.php?title=HArrayInt_VS_std::map
Инкапсуляция, шаблоны и прочье — это скорей элемент ритуала, чем реальные потребности в проекте с небольшой командой.
Здравствуйте, BoobenCom, Вы писали:
BC>Простые структуры данных не сложно написать самому. Зато знаешь что там внутри и нет лишнего кода. BC>Сложные структуры, не грех и переписать, можно получить прирост производительности на порядок
Это всё понятно и порой имеет смысл.
Вопрос был: зачем именно на С?
BC>Инкапсуляция, шаблоны и прочье — это скорей элемент ритуала, чем реальные потребности в проекте с небольшой командой.
Забанили по IP, значит пора закрыть эту страницу.
Всем пока
Там сам по себе алгоритм тяжелый. Еслиб он был на шарп или на джава, работал бы, наверное, час.
Вот если потестировать чтото попроще, аналог
SELECT ... FROM ... GROUP BY ...
по базе, то работает в районе 100-200 тыс запросов/сек по базе в несколько десятков гигабайт.
Здравствуйте, Andrew.W Worobow, Вы писали:
AWW>Здравствуйте, BoobenCom, Вы писали:
AWW>Чем он будет лучше тех что перечисленны в ссылках тут — http://en.wikipedia.org/wiki/Web_crawler
В смысле лучше ?
Краулер это только одна компонента поисковика.
Здравствуйте, Andrew.W Worobow, Вы писали:
AWW>Здравствуйте, BoobenCom, Вы писали:
AWW>Чем он будет лучше тех что перечисленны в ссылках тут — http://en.wikipedia.org/wiki/Web_crawler
Краулер это только одна компонента поисковика (та что занимается выкачиванием контента).
Здравствуйте, BoobenCom, Вы писали:
BC>Здравствуйте, Andrew.W Worobow, Вы писали:
AWW>>Здравствуйте, BoobenCom, Вы писали:
AWW>>Чем он будет лучше тех что перечисленны в ссылках тут — http://en.wikipedia.org/wiki/Web_crawler
BC>Краулер это только одна компонента поисковика (та что занимается выкачиванием контента).
Здравствуйте, BoobenCom, Вы писали:
BC>Добрый День ! BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится. BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте. BC>http://www.booben.com
Я такую выдачу не ожидал:
Здравствуйте, Wolverrum, Вы писали:
W>Здравствуйте, BoobenCom, Вы писали:
BC>>Добрый День ! BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано BC>>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится. BC>>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте. BC>>http://www.booben.com W>Я такую выдачу не ожидал: W>Image: 116902079_large_snimok3.png