Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 11.09.14 19:52
Оценка: -1 :))) :))) :))
Добрый День !
Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.

Вот прототип, можно попробовать примеры запросов:
Джобс, Айфон, Андроид и тд....

http://www.booben.com
Re: Пишу поисковый движок с нуля на Си
От: nikov США http://www.linkedin.com/in/nikov
Дата: 11.09.14 20:45
Оценка: :))) :)
Здравствуйте, BoobenCom, Вы писали:

BC>Добрый День !

BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>0,5 ТБ ресурсов.

Когда планируется проиндексировать остальные 5 млн. ТБ? (а по некоторым оценкам, вместе с видео и прочими бинарными данными, около 500 млн. ТБ)
Re: Пишу поисковый движок с нуля на Си
От: CreatorCray  
Дата: 11.09.14 21:15
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Поиск имеет более качественную выдачу

Более качественную чем что?
Забанили по IP, значит пора закрыть эту страницу.
Всем пока
Re[2]: Пишу поисковый движок с нуля на Си
От: Sharov Россия  
Дата: 11.09.14 21:52
Оценка: :)
Здравствуйте, CreatorCray, Вы писали:

CC>Здравствуйте, BoobenCom, Вы писали:


BC>>Поиск имеет более качественную выдачу

CC>Более качественную чем что?

Более качественную чем ничто.
Кодом людям нужно помогать!
Re: Пишу поисковый движок с нуля на Си
От: Sharov Россия  
Дата: 11.09.14 21:57
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Добрый День !

BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.

BC>Вот прототип, можно попробовать примеры запросов:

BC>Джобс, Айфон, Андроид и тд....

А вообще прикольно. Но только по запросу "путин" выдача для всех сайтов одинакова.
На dou.ua явно должно быть больше.

Ps: я против политических флеймов в этой ветке.
Кодом людям нужно помогать!
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 00:39
Оценка:
Здравствуйте, CreatorCray, Вы писали:

CC>Здравствуйте, BoobenCom, Вы писали:


BC>>Поиск имеет более качественную выдачу

CC>Более качественную чем что?

чем яндекс или гугл, но на поиске по локальным ресурсам

Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 00:42
Оценка:
Здравствуйте, Sharov, Вы писали:

S>Здравствуйте, BoobenCom, Вы писали:


BC>>Добрый День !

BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
BC>>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.

BC>>Вот прототип, можно попробовать примеры запросов:

BC>>Джобс, Айфон, Андроид и тд....

S>А вообще прикольно. Но только по запросу "путин" выдача для всех сайтов одинакова.

S>На dou.ua явно должно быть больше.

S>Ps: я против политических флеймов в этой ветке.


Доу слишко маленькя база, попробуйте по базе sql.ru или searchengines.guru
Отредактировано 12.09.2014 0:45 BoobenCom . Предыдущая версия . Еще …
Отредактировано 12.09.2014 0:44 BoobenCom . Предыдущая версия .
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 00:47
Оценка:
Здравствуйте, nikov, Вы писали:

N>Здравствуйте, BoobenCom, Вы писали:


BC>>Добрый День !

BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>>0,5 ТБ ресурсов.

N>Когда планируется проиндексировать остальные 5 млн. ТБ? (а по некоторым оценкам, вместе с видео и прочими бинарными данными, около 500 млн. ТБ)


Откуда эта цифра ?
По информации яндекса размеры текстовой инфорации в рунете около 100 ТБ
Отредактировано 12.09.2014 0:48 BoobenCom . Предыдущая версия .
Re[3]: Пишу поисковый движок с нуля на Си
От: CreatorCray  
Дата: 12.09.14 01:08
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Откуда эта цифра ?

BC>По информации яндекса размеры текстовой инфорации в рунете около 100 ТБ
Сколько процентов составляет рунет от всего интернета?
Забанили по IP, значит пора закрыть эту страницу.
Всем пока
Re[3]: Пишу поисковый движок с нуля на Си
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 12.09.14 01:29
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Image: attachment.php

BC>Image: e3bcf5ec37d945430cf00a44caed78b1-full.jpg

Выдача яндекса явно лучше.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
AVK Blog
Re: гуглюкапец?
От: Brutalix  
Дата: 12.09.14 01:49
Оценка:
Здравствуйте, BoobenCom, Вы писали:

сабж
Re: Пишу поисковый движок с нуля на Си
От: Miroff Россия  
Дата: 12.09.14 06:24
Оценка: +2 -1
Здравствуйте, BoobenCom, Вы писали:

BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано


Как учебная задача вполне неплохо.
Re: Пишу поисковый движок с нуля на Си
От: s_aa Россия  
Дата: 12.09.14 06:32
Оценка: 12 (1) +3
BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.

Молодец! Не слушай никого пиши. Все лучше чем водку жрать
Жизнь не обязана доставлять удовольствие. Достаточно отсутствия страданий.
Re[4]: Пишу поисковый движок с нуля на Си
От: Sharowarsheg  
Дата: 12.09.14 06:33
Оценка: 1 (1) +2 :))) :)
Здравствуйте, CreatorCray, Вы писали:

BC>>Откуда эта цифра ?

BC>>По информации яндекса размеры текстовой инфорации в рунете около 100 ТБ
CC>Сколько процентов составляет рунет от всего интернета?


Что вы докопались до него? Автору, назвавшему свою поисковую машину "Сиськен", можно только пожелать успеха. Так что пожелайте успеха и прекратите подкалывать его.
Re[5]: Пишу поисковый движок с нуля на Си
От: kleng  
Дата: 12.09.14 07:06
Оценка: +2
Здравствуйте, Sharowarsheg, Вы писали:

S>Что вы докопались до него? Автору, назвавшему свою поисковую машину "Сиськен"


Нужен соответствующий логотип.
Re: Пишу поисковый движок с нуля на Си
От: kleng  
Дата: 12.09.14 07:07
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Пишу с нуля поисковый движок на Си.


DDoS team уже сработал, сайт периодически выдает ошибки. Похоже, Си не очень то помог.
Re[2]: Пишу поисковый движок с нуля на Си
От: Yoriсk  
Дата: 12.09.14 07:56
Оценка:
Здравствуйте, nikov, Вы писали:

N>а по некоторым оценкам, вместе с видео и прочими бинарными данными, около 500 млн. ТБ


Ну порнуху-то зачем индексировать?
Re[3]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 08:07
Оценка: :)
Всё отлично работает. Забиваем Чак в гугл и бубен и сравниваем выдачу

Гугл поиск

Бубен поиск

У бубна явно чище выдача чем у гугла.
Re: Пишу поисковый движок с нуля на Си
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 12.09.14 09:02
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Вот прототип, можно попробовать примеры запросов:


1) В встроенном IE не работает. Либо укажи в заголовке <meta http-equiv="X-UA-Compatible" content="IE=edge" />, либо научи работать в IE6.
2) Первый же запрос, "пестня", выдал маловразумительный результат. Разные части документов имеют разную важность, это надо учитывать.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
AVK Blog
Re[3]: Пишу поисковый движок с нуля на Си
От: Miroff Россия  
Дата: 12.09.14 09:16
Оценка:
Здравствуйте, Yoriсk, Вы писали:

Y>Ну порнуху-то зачем индексировать?


Вот как раз только порнуху и имеет смысл индексировать
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 09:18
Оценка:
Здравствуйте, AndrewVK, Вы писали:

AVK>Здравствуйте, BoobenCom, Вы писали:


BC>>Вот прототип, можно попробовать примеры запросов:


AVK>1) В встроенном IE не работает. Либо укажи в заголовке <meta http-equiv="X-UA-Compatible" content="IE=edge" />, либо научи работать в IE6.


Добавлю. Спасибо.

AVK>2) Первый же запрос, "пестня", выдал маловразумительный результат. Разные части документов имеют разную важность, это надо учитывать.


Во-первых слово написано с ошибкой.
Во-вторных, попробуйте поискать на крупных базах, например, sql.ru. Они не полностью айтишные
Re[3]: Пишу поисковый движок с нуля на Си
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 12.09.14 09:34
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Во-первых слово написано с ошибкой.


Конечно. Специально.

BC>Во-вторных, попробуйте поискать на крупных базах, например, sql.ru. Они не полностью айтишные


Я в sql.ru и искал. Гугл выдал нормальный результат, а вот твой поисковик нет.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
AVK Blog
Re[4]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 11:40
Оценка:
Здравствуйте, AndrewVK, Вы писали:

AVK>Я в sql.ru и искал. Гугл выдал нормальный результат, а вот твой поисковик нет.


На мобиле гугл мне выдал чтото про распарллеливание в С++.
На десктопе просто набор тем с заголовком. Это слишком просто.
Я заголовки принципиально не анализирую, а анализирую суть статей.
Re[5]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 11:43
Оценка:
Кстате свой результат я считаю релевантней.
Потому что по запросу "Пестня" отискало тему, где нет в заголовке этого слова,
но есть куча куплетов разных песен.

http://www.sql.ru/forum/149694-1/koncert-po-zayavkam

А гугл заморачиватся не стал. Просто вернул тему где нет ниодного куплета
Одни видео. Обычная случайность

http://www.sql.ru/forum/1102559/smeshnaya-pestnya
Re: Пишу поисковый движок с нуля на Си
От: Ikemefula Беларусь http://blogs.rsdn.org/ikemefula
Дата: 12.09.14 13:26
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Вот прототип, можно попробовать примеры запросов:

BC>Джобс, Айфон, Андроид и тд....

BC>http://www.booben.com


Вероятно поиск работает только на уникальных запросах, а то как такой выхлоп

"An item with the same key has already been added. "

Re: Пишу поисковый движок с нуля на Си
От: Ikemefula Беларусь http://blogs.rsdn.org/ikemefula
Дата: 12.09.14 13:27
Оценка: :)
Здравствуйте, BoobenCom, Вы писали:

BC>Пишу с нуля поисковый движок на Си.


Надеюсь вебморда тоже на Си ?
Re[6]: Пишу поисковый движок с нуля на Си
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 12.09.14 16:05
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Кстате свой результат я считаю релевантней.


Таким манером ты сделаешь поисковик, который будет интересен только тебе. Да и вообще сложно что то понять, когда у тебя запрос может только из одного слова состоять.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
AVK Blog
Re: Пишу поисковый движок с нуля на Си
От: pestis  
Дата: 12.09.14 16:08
Оценка:
Здравствуйте, BoobenCom, Вы писали:


BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано

BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.

А где исходники? Что-то не могу найти
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 16:55
Оценка:
Здравствуйте, pestis, Вы писали:

P>Здравствуйте, BoobenCom, Вы писали:



BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано

BC>>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
BC>>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.

P>А где исходники? Что-то не могу найти


Поищи на
http://www.kursovik.com/

Тут знающие люди сказали что учебный проект, они подскажут подробней
Re[7]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 16:56
Оценка:
Здравствуйте, AndrewVK, Вы писали:

AVK>Здравствуйте, BoobenCom, Вы писали:


BC>>Кстате свой результат я считаю релевантней.


AVK>Таким манером ты сделаешь поисковик, который будет интересен только тебе. Да и вообще сложно что то понять, когда у тебя запрос может только из одного слова состоять.


Еще есть примеры "некорректной" работы ?
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 16:57
Оценка:
Здравствуйте, Ikemefula, Вы писали:

I>Вероятно поиск работает только на уникальных запросах, а то как такой выхлоп


I>"An item with the same key has already been added. "


Как именно воспроизвести ?
Re[8]: Пишу поисковый движок с нуля на Си
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 12.09.14 17:17
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Еще есть примеры "некорректной" работы ?


Говорить о близких к реальности примерах до того как оно у тебя по нескольким словам научится искать невозможно.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
AVK Blog
Re[2]: Пишу поисковый движок с нуля на Си
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 12.09.14 17:21
Оценка:
Здравствуйте, Ikemefula, Вы писали:

I>"An item with the same key has already been added. "


Что то мне подсказывает что там совсем не С
Вот еще интересный url есть — $(id).load('/Home/PartialResult/' + url);

UPD: Хидеры тоже ничего так:
HTTP/1.1 200 OK
Cache-Control: private
Content-Type: text/html; charset=utf-8
Content-Encoding: gzip
Vary: Accept-Encoding
Server: Microsoft-IIS/7.5
X-AspNetMvc-Version: 4.0
X-AspNet-Version: 4.0.30319
X-Powered-By: ASP.NET
Date: Fri, 12 Sep 2014 17:22:31 GMT
Content-Length: 1998
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
AVK Blog
Отредактировано 12.09.2014 17:23 AndrewVK . Предыдущая версия .
Re[9]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 17:26
Оценка:
Здравствуйте, AndrewVK, Вы писали:

AVK>Здравствуйте, BoobenCom, Вы писали:


BC>>Еще есть примеры "некорректной" работы ?


AVK>Говорить о близких к реальности примерах до того как оно у тебя по нескольким словам научится искать невозможно.


Тоесть с поиском по одному слову косяков ты не нашел ?
Ок, жди когда по фразе будет открыт поиск.
Re: Пишу поисковый движок с нуля на Си
От: ramar Марс  
Дата: 12.09.14 17:28
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Добрый День !

BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>0,5 ТБ ресурсов.

Как индексируются страницы, кто и как добавляет их в базу? Как часто их надо обновлять? У вас будет база на 30Тб?
Re[10]: Пишу поисковый движок с нуля на Си
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 12.09.14 17:30
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Тоесть с поиском по одному слову косяков ты не нашел ?


Не искал. Я почти никогда не пишу запросы из одного слова, с практической точки зрения это лишено смысла.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
AVK Blog
Re[3]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 17:32
Оценка:
Здравствуйте, AndrewVK, Вы писали:

AVK>Что то мне подсказывает что там совсем не С


Зачем писать сам сайт витрину на Си ?
Может я отстал от жизни, но всеже
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 12.09.14 17:39
Оценка:
Здравствуйте, ramar, Вы писали:

R>Здравствуйте, BoobenCom, Вы писали:


BC>>Добрый День !

BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>>0,5 ТБ ресурсов.

R>Как индексируются страницы, кто и как добавляет их в базу? Как часто их надо обновлять? У вас будет база на 30Тб?


долго рассказывать, чтото есть в моем блоге
http://blog.pikosec.com

базы на 30 тб у меня не будет.
Ее не проблема проиндексировать, ее проблема выкачать. Это займет года.
все что я накачал, это 0.5 тб и качал не один месяц.
Re[3]: Пишу поисковый движок с нуля на Си
От: CreatorCray  
Дата: 12.09.14 18:05
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Во-первых слово написано с ошибкой.

Пойчему с ойшибгой? Всио правельна с точке зренийа арфагравейи падонскага езыга.
Забанили по IP, значит пора закрыть эту страницу.
Всем пока
Re[4]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 13.09.14 19:40
Оценка:
На базе своего движка развернул сеть по обмену сообщениями.
Одна из ее целей, трекинг багов, их можно оставлять здесь:
http://booben.com/Net?tags=booben%2Cbugs
Re[3]: Пишу поисковый движок с нуля на Си
От: Ikemefula Беларусь http://blogs.rsdn.org/ikemefula
Дата: 14.09.14 08:49
Оценка:
Здравствуйте, BoobenCom, Вы писали:

I>>Вероятно поиск работает только на уникальных запросах, а то как такой выхлоп


I>>"An item with the same key has already been added. "


BC>Как именно воспроизвести ?


Искал по слову "Джобс"
Re[4]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 14.09.14 13:17
Оценка:
Здравствуйте, Ikemefula, Вы писали:

BC>>Как именно воспроизвести ?


I>Искал по слову "Джобс"


Не воспроизводится. На каком ресурсе ?
Отредактировано 15.09.2014 0:07 AndrewVK . Предыдущая версия .
Re[5]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 16.09.14 11:45
Оценка:
прикольно, фиксил тут один баг.
Попробовал набрать слово могущество.
Первой темой вывело "Китай — ого".
В какойто мере поиск ведет себя как нейросеть, выдавая результаты со скрытым смыслом
Re[8]: Пишу поисковый движок с нуля на Си
От: Blazkowicz Россия  
Дата: 17.09.14 09:24
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Еще есть примеры "некорректной" работы ?

Да. Ищу java — получаю кучу других слов в выдаче выделеных болдом. com, web, public.
Re[4]: Пишу поисковый движок с нуля на Си
От: -n1l-  
Дата: 17.09.14 09:40
Оценка:
Здравствуйте, BoobenCom, Вы писали:
BC>Зачем писать сам сайт витрину на Си ?
BC>Может я отстал от жизни, но всеже

А зачем писать ее на asp.net'e? Плюс мне интересно действительно ли алгоритмы реализованы на си, что-то не верится что это не c#.
Re[5]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 17.09.14 12:33
Оценка:
Здравствуйте, -n1l-, Вы писали:

N>Здравствуйте, BoobenCom, Вы писали:

BC>>Зачем писать сам сайт витрину на Си ?
BC>>Может я отстал от жизни, но всеже

N>А зачем писать ее на asp.net'e? Плюс мне интересно действительно ли алгоритмы реализованы на си, что-то не верится что это не c#.


Какое Си, на 1С же, я ошибся.
Отредактировано 17.09.2014 12:34 BoobenCom . Предыдущая версия .
Re[9]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 17.09.14 12:37
Оценка:
Здравствуйте, Blazkowicz, Вы писали:

B>Здравствуйте, BoobenCom, Вы писали:


BC>>Еще есть примеры "некорректной" работы ?

B>Да. Ищу java — получаю кучу других слов в выдаче выделеных болдом. com, web, public.

http://booben.com/?q=%D0%B4%D0%B6%D0%B0%D0%B2%D0%B0
Re: Пишу поисковый движок с нуля на Си
От: Michael7 Россия  
Дата: 17.09.14 20:56
Оценка: +4
Здравствуйте, BoobenCom, Вы писали:

BC>Добрый День !

BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.

Если сам, один и с нуля написал, да еще на Си, то дай, так сказать, пожать руку. Достаточно круто получилось, даже можно на полном серьезе сравнить преимущества и недостатки с поиском гуглем на этих сайтах.

Кто-то скажет, что это задача простая и они одной левой такой курсовик писали за неделю вечерами, но на самом деле не всякий сможет.

Хотя, если честно, непонятен выбор языка Си для этой цели.
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 18.09.14 06:19
Оценка: +1 :))) :)))
Здравствуйте, Michael7, Вы писали:

M>Хотя, если честно, непонятен выбор языка Си для этой цели.


Да вы что ребята. C# по сравнению с Си выглядит как примитивный скриптовый язык,
годится только для прототипирования. Шарп хорош чтоб обвесы писать. Ну там паучок хорошо пойдет
чтоб не морочить себе голову кодировками, а ядро должно быть только на Си — маст хев.
Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью
Отредактировано 18.09.2014 6:19 BoobenCom . Предыдущая версия .
Re[3]: Пишу поисковый движок с нуля на Си
От: Alex912  
Дата: 18.09.14 06:36
Оценка: 9 (1) :)
Здравствуйте, BoobenCom, Вы писали:

BC>Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью


Про архитектуру в целом было интересно прочитать. Есть в планах написать статью?
Re[3]: Пишу поисковый движок с нуля на Си
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 18.09.14 14:18
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>вторая половина костыли работы с памятью


Отличная демонстрация пригодности выбора С для этой задачи.
... << RSDN@Home 1.0.0 alpha 5 rev. 0 on Windows 8 6.2.9200.0>>
AVK Blog
Re[3]: Пишу поисковый движок с нуля на Си
От: DreamMaker  
Дата: 19.09.14 19:00
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Ее не проблема проиндексировать, ее проблема выкачать. Это займет года.

BC>все что я накачал, это 0.5 тб и качал не один месяц.

GPRS что ли?

почему С а не Asm?
In P=NP we trust.
Re[3]: Пишу поисковый движок с нуля на Си
От: bazis1 Канада  
Дата: 19.09.14 19:14
Оценка: +1
Здравствуйте, BoobenCom, Вы писали:

BC>Здравствуйте, Michael7, Вы писали:

BC>Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью
Которые решаются правильно спроектированным уровнем абстракции на C++, после чего остальной код выглядит опрятно, как высокоуровневый C#, а работает не медленнее этих ваших сей.
Re[4]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 21.09.14 10:53
Оценка:
Здравствуйте, bazis1, Вы писали:

B>Здравствуйте, BoobenCom, Вы писали:


BC>>Здравствуйте, Michael7, Вы писали:

BC>>Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью
B>Которые решаются правильно спроектированным уровнем абстракции на C++, после чего остальной код выглядит опрятно, как высокоуровневый C#, а работает не медленнее этих ваших сей.

Когда я говорю написано на Си я не подрозумеваю использование компилятора Си одной из первых версий Дениса-Ричи.
Я подразумеваю что не использовались всякие STL и Boost'ы которые любят разные С++-сники.
Чем использовать это барахло, уж лучше сразу на С# переходить. А если кодить нормально, на максимальных возможностях ЭВМ,
то это Си без левых библиотек.
Отредактировано 21.09.2014 10:54 BoobenCom . Предыдущая версия . Еще …
Отредактировано 21.09.2014 10:54 BoobenCom . Предыдущая версия .
Re[4]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 21.09.14 10:56
Оценка:
Здравствуйте, DreamMaker, Вы писали:

DM>Здравствуйте, BoobenCom, Вы писали:


BC>>Ее не проблема проиндексировать, ее проблема выкачать. Это займет года.

BC>>все что я накачал, это 0.5 тб и качал не один месяц.

DM>GPRS что ли?


DM>почему С а не Asm?


Нет, не GPRS.
Просто любой приличный сервер не позволит себя досить и выдаст максимум 50кб\сек.
Re[4]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 21.09.14 10:59
Оценка:
Здравствуйте, Alex912, Вы писали:

A>Здравствуйте, BoobenCom, Вы писали:


BC>>Там первая половина ядра битовая арифметика, вторая половина костыли работы с памятью


A>Про архитектуру в целом было интересно прочитать. Есть в планах написать статью?


Долго рассказывать.
В целом вот человек описывал
подобный поход по граблям http://habrahabr.ru/post/123671/
Re[5]: Пишу поисковый движок с нуля на Си
От: bazis1 Канада  
Дата: 21.09.14 16:34
Оценка: +1
Здравствуйте, BoobenCom, Вы писали:

BC>Когда я говорю написано на Си я не подрозумеваю использование компилятора Си одной из первых версий Дениса-Ричи.

BC>Я подразумеваю что не использовались всякие STL и Boost'ы которые любят разные С++-сники.
BC>Чем использовать это барахло, уж лучше сразу на С# переходить. А если кодить нормально, на максимальных возможностях ЭВМ,
BC>то это Си без левых библиотек.
т.е. вы не используете инкапсуляцию для предотвращения лавинообразного роста сложности? не используете шаблоны для написания контейнеров, абстрагирующих работу с памятью? не используете RAII для автоматического освобождения объектов? ну-ну...
Re[6]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 21.09.14 17:55
Оценка:
Здравствуйте, bazis1, Вы писали:

B>Здравствуйте, BoobenCom, Вы писали:


BC>>Когда я говорю написано на Си я не подрозумеваю использование компилятора Си одной из первых версий Дениса-Ричи.

BC>>Я подразумеваю что не использовались всякие STL и Boost'ы которые любят разные С++-сники.
BC>>Чем использовать это барахло, уж лучше сразу на С# переходить. А если кодить нормально, на максимальных возможностях ЭВМ,
BC>>то это Си без левых библиотек.
B>т.е. вы не используете инкапсуляцию для предотвращения лавинообразного роста сложности? не используете шаблоны для написания контейнеров, абстрагирующих работу с памятью? не используете RAII для автоматического освобождения объектов? ну-ну...

Простые структуры данных не сложно написать самому. Зато знаешь что там внутри и нет лишнего кода.
Сложные структуры, не грех и переписать, можно получить прирост производительности на порядок
Например так: http://wiki.pikosec.com/index.php?title=HArrayInt_VS_std::map

Инкапсуляция, шаблоны и прочье — это скорей элемент ритуала, чем реальные потребности в проекте с небольшой командой.
Re[7]: Пишу поисковый движок с нуля на Си
От: CreatorCray  
Дата: 21.09.14 20:03
Оценка: -1
Здравствуйте, BoobenCom, Вы писали:

BC>Простые структуры данных не сложно написать самому. Зато знаешь что там внутри и нет лишнего кода.

BC>Сложные структуры, не грех и переписать, можно получить прирост производительности на порядок
Это всё понятно и порой имеет смысл.
Вопрос был: зачем именно на С?

BC>Инкапсуляция, шаблоны и прочье — это скорей элемент ритуала, чем реальные потребности в проекте с небольшой командой.

Забанили по IP, значит пора закрыть эту страницу.
Всем пока
Re[8]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 21.09.14 23:21
Оценка:
Здравствуйте, CreatorCray, Вы писали:

CC>Вопрос был: зачем именно на С?



༼ つ ☻_☻ ༽つ

░░░░░███████ ]▄▄▄▄▄▄▄
▂▄▅████Т-34████▅▄▃
Il███████████████████]
◥⊙▲⊙▲⊙▲⊙▲⊙▲⊙▲⊙◤..
Re[5]: Пишу поисковый движок с нуля на Си
От: DreamMaker  
Дата: 22.09.14 17:51
Оценка: -1 :)
Здравствуйте, BoobenCom, Вы писали:

BC>А если кодить нормально, на максимальных возможностях ЭВМ, то это Си без левых библиотек.


А если кодить нормально, на максимальных возможностях ПРОГРАММИСТА, то это C#
In P=NP we trust.
Re: Пишу поисковый движок с нуля на Си
От: ArtDenis Россия  
Дата: 30.09.14 05:38
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>...

BC>http://www.booben.com

Что-то он дико тормозит. Видимо надо переписать его на ассемблере, "получив прирост производительности на порядок
Автор: BoobenCom
Дата: 21.09.14
"
[ 🎯 Дартс-лига Уфы | 🌙 Программа для сложения астрофото ]
Отредактировано 30.09.2014 5:39 ArtDenis . Предыдущая версия .
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 30.09.14 07:08
Оценка:
Здравствуйте, ArtDenis, Вы писали:

AD>Здравствуйте, BoobenCom, Вы писали:


BC>>...

BC>>http://www.booben.com

AD>Что-то он дико тормозит. Видимо надо переписать его на ассемблере, "получив прирост производительности на порядок
Автор: BoobenCom
Дата: 21.09.14
"


Там сам по себе алгоритм тяжелый. Еслиб он был на шарп или на джава, работал бы, наверное, час.
Вот если потестировать чтото попроще, аналог
SELECT ... FROM ... GROUP BY ...
по базе, то работает в районе 100-200 тыс запросов/сек по базе в несколько десятков гигабайт.

http://booben.com/Stat?q=%D0%BB%D0%B8%D1%81%D0%BF
Re: Пишу поисковый движок с нуля на Си
От: Andrew.W Worobow https://github.com/Worobow
Дата: 30.09.14 07:57
Оценка:
Здравствуйте, BoobenCom, Вы писали:

Чем он будет лучше тех что перечисленны в ссылках тут — http://en.wikipedia.org/wiki/Web_crawler
Не все кто уехал, предал Россию.
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 30.09.14 08:33
Оценка:
Здравствуйте, Andrew.W Worobow, Вы писали:

AWW>Здравствуйте, BoobenCom, Вы писали:


AWW>Чем он будет лучше тех что перечисленны в ссылках тут — http://en.wikipedia.org/wiki/Web_crawler


В смысле лучше ?
Краулер это только одна компонента поисковика.
Re[3]: Пишу поисковый движок с нуля на Си
От: Andrew.W Worobow https://github.com/Worobow
Дата: 30.09.14 08:34
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>В смысле лучше ?

BC>Краулер это только одна компонента поисковика.

Ага теперь стало яснее что вы пишите. Сорри.
Не все кто уехал, предал Россию.
Re[2]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 30.09.14 08:37
Оценка:
Здравствуйте, Andrew.W Worobow, Вы писали:

AWW>Здравствуйте, BoobenCom, Вы писали:


AWW>Чем он будет лучше тех что перечисленны в ссылках тут — http://en.wikipedia.org/wiki/Web_crawler


Краулер это только одна компонента поисковика (та что занимается выкачиванием контента).
Re[3]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 30.09.14 08:37
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Здравствуйте, Andrew.W Worobow, Вы писали:


AWW>>Здравствуйте, BoobenCom, Вы писали:


AWW>>Чем он будет лучше тех что перечисленны в ссылках тут — http://en.wikipedia.org/wiki/Web_crawler


BC>Краулер это только одна компонента поисковика (та что занимается выкачиванием контента).


Проглючил броузер. Удалите дубль плиз.
Re[8]: Пишу поисковый движок с нуля на Си
От: rm822 Россия  
Дата: 30.09.14 10:14
Оценка:
BC>Еще есть примеры "некорректной" работы ?
http://www.booben.com/?q=8649&amp;s=sql.ru
Re[9]: Пишу поисковый движок с нуля на Си
От: BoobenCom  
Дата: 30.09.14 11:05
Оценка:
Здравствуйте, rm822, Вы писали:

BC>>Еще есть примеры "некорректной" работы ?

R>http://www.booben.com/?q=8649&amp;s=sql.ru

RSDN не правильно ссылки вставляет.
Специально для него, сделал что можно писать линки и в таком формате:

http://www.booben.com/?q=sql.ru:8649
Re: Re: с нуля на Си и уже не работает
От: Wolverrum Ниоткуда  
Дата: 30.09.14 23:50
Оценка:
Здравствуйте, BoobenCom, Вы писали:

BC>Добрый День !

BC>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
BC>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
BC>http://www.booben.com
Я такую выдачу не ожидал:
Re[2]: с нуля на Си и уже не работает
От: BoobenCom  
Дата: 01.10.14 06:51
Оценка:
Здравствуйте, Wolverrum, Вы писали:

W>Здравствуйте, BoobenCom, Вы писали:


BC>>Добрый День !

BC>>Пишу с нуля поисковый движок на Си. На данный момент проиндексировано
BC>>0,5 ТБ ресурсов. Пока что Вашего сайта нет в индексе, но может скоро появится.
BC>>Поиск имеет более качественную выдачу, основанную на ассоциативных связях в тексте.
BC>>http://www.booben.com
W>Я такую выдачу не ожидал:
W>Image: 116902079_large_snimok3.png

А как возспроизвести эту ошибку ?
Отредактировано 01.10.2014 6:52 BoobenCom . Предыдущая версия .
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.