Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Яков Сироткин Россия http://www.telamon.ru/
Дата: 07.06.12 14:07
Оценка: 18 (2) +1 :)
Все знают, что учёные прочитали геном человека. Также были прочитаны геномы разных животных и бактерий. Обычно это делается так: берется много клеток одного организма, из них извлекаются ДНК, с них считывается много-много маленьких фрагментов, потом из фрагментов собирается геном. Это довольно сложная задача, но её более-менее научились решать: сейчас борьба идёт за скорость, снижение стоимости и прочтение проблемных участков.

Однако, далеко не все бактерии размножаются в неволе. И как раз эти бактерии ещё мало изучены и могут дать, например, идеи для новых лекарств. К сожалению, для этих бактерий мы можем взять только одну клетку, поэтому стандартные технологии чтения ДНК не работают. Недавно появились методы, которые позволяют получить достаточное количество фрагментов для сборки, но существующий софт не готов к таким данным.

Наша команда делает ассемблер бактериальных геномов SPAdes, который должен стать лучшим в мире ассемблером для сборки геномов по одной клетке. Делать ассемблер номер два нет никакого смысла, потому что им просто никто не будет пользоваться. Сейчас мы ищем программиста на C++, который мог бы внести свой вклад в наше общее дело, существующий код можно посмотреть в tar.gz.

Наша лаборатория финансируется за счёт «мегагранта» и мы способны предложить достойную зарплату. Руководитель лаборатории — Павел Певзнер. Если вас заинтересовала эта вакансия, пишите на .
Яков Сироткин
http://www.telamon.ru/
yasha@telamon.ru
Re: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: ML380 Земля  
Дата: 07.06.12 14:10
Оценка:
Здравствуйте, Яков Сироткин, Вы писали:

Прикольно! Наверное, очень интересная область.
Re: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Denn  
Дата: 07.06.12 14:42
Оценка:
Здравствуйте, Яков Сироткин, Вы писали:

ЯС>Все знают, что учёные прочитали геном человека. Также были прочитаны геномы разных животных и бактерий. Обычно это делается так: берется много клеток одного организма, из них извлекаются ДНК, с них считывается много-много маленьких фрагментов, потом из фрагментов собирается геном. Это довольно сложная задача, но её более-менее научились решать: сейчас борьба идёт за скорость, снижение стоимости и прочтение проблемных участков.


Не понял, а в чем проблема воспользоваться полимеразной цепной реакцией?
Re: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: redp Ниоткуда redplait.blogspot.com
Дата: 07.06.12 19:36
Оценка:
ЯС>Наша команда делает ассемблер бактериальных геномов SPAdes, который должен стать лучшим в мире ассемблером для сборки геномов по одной клетке. Делать ассемблер номер два нет никакого смысла
вот значит в какой rocket science уходят из яндекса
паранойя не болезнь, а критерий профпригодности
Re[2]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Яков Сироткин Россия http://www.telamon.ru/
Дата: 07.06.12 19:37
Оценка:
Здравствуйте, Denn, Вы писали:

D>Здравствуйте, Яков Сироткин, Вы писали:


ЯС>>Все знают, что учёные прочитали геном человека. Также были прочитаны геномы разных животных и бактерий. Обычно это делается так: берется много клеток одного организма, из них извлекаются ДНК, с них считывается много-много маленьких фрагментов, потом из фрагментов собирается геном. Это довольно сложная задача, но её более-менее научились решать: сейчас борьба идёт за скорость, снижение стоимости и прочтение проблемных участков.


D> Не понял, а в чем проблема воспользоваться полимеразной цепной реакцией?


С помощью ПЦР по одной клетке геном не собрать, используется http://en.wikipedia.org/wiki/Multiple_displacement_amplification
Яков Сироткин
http://www.telamon.ru/
yasha@telamon.ru
Re: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Arsen.Shnurkov  
Дата: 07.06.12 20:33
Оценка:
в 1994 году заканчивал школу, классная руководительница-биологичка занималась генетикой, я спрашивал, нужны ли программисты — были не нужны.
в 2000 закончил вуз, спрашивал её же, нужны? нет

и вот теперь, через 12 лет, оказывается, что нужны.
только я теперь уже переквалифицировался на C# и мои знания по C++ неактуальны...


То же самое с другом физиком по спеканию металлов — говорит "что там считать, формулы простые, а софт готовый можно взять".
Re: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: carpenter СССР  
Дата: 07.06.12 21:39
Оценка:
Здравствуйте, Яков Сироткин, Вы писали:

ЯС> существующий код можно посмотреть в tar.gz.


да уж — код комментами не изобилует
если вам скорость надо увеличить — прогоните под vtune или кто там сча крутой
Re[2]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Arsen.Shnurkov  
Дата: 07.06.12 22:44
Оценка:
C>если вам скорость надо увеличить — прогоните под vtune или кто там сча крутой

они не тупые, наверняка они сначала хотят увеличить скорость алгоритмически
Re[2]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Vain Россия google.ru
Дата: 07.06.12 22:55
Оценка:
Здравствуйте, ML380, Вы писали:

ML>Прикольно! Наверное, очень интересная область.

Ага, особенно дешифровка мусора.
[In theory there is no difference between theory and practice. In
practice there is.]
[Даю очевидные ответы на риторические вопросы]
Re: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: zdv Россия  
Дата: 08.06.12 02:42
Оценка:
Здравствуйте, Яков Сироткин, Вы писали:

ЯС>Все знают, что учёные прочитали геном человека. Также были прочитаны геномы разных животных и бактерий. Обычно это делается так: берется много клеток одного организма, из них извлекаются ДНК, с них считывается много-много маленьких фрагментов, потом из фрагментов собирается геном. Это довольно сложная задача, но её более-менее научились решать: сейчас борьба идёт за скорость, снижение стоимости и прочтение проблемных участков.


ЯС>Однако, далеко не все бактерии размножаются в неволе. И как раз эти бактерии ещё мало изучены и могут дать, например, идеи для новых лекарств. К сожалению, для этих бактерий мы можем взять только одну клетку, поэтому стандартные технологии чтения ДНК не работают. Недавно появились методы, которые позволяют получить достаточное количество фрагментов для сборки, но существующий софт не готов к таким данным.


ЯС>Наша команда делает ассемблер бактериальных геномов SPAdes, который должен стать лучшим в мире ассемблером для сборки геномов по одной клетке. Делать ассемблер номер два нет никакого смысла, потому что им просто никто не будет пользоваться. Сейчас мы ищем программиста на C++, который мог бы внести свой вклад в наше общее дело, существующий код можно посмотреть в tar.gz.


ЯС>Наша лаборатория финансируется за счёт «мегагранта» и мы способны предложить достойную зарплату. Руководитель лаборатории — Павел Певзнер. Если вас заинтересовала эта вакансия, пишите на .

Очень интересно. А какие требования к кандидату, возможна ли удаленка на полный/неполный день? Резюме можете посмотреть здесь
С уважением, Дмитрий
Re[2]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Яков Сироткин Россия http://www.telamon.ru/
Дата: 08.06.12 03:41
Оценка:
Здравствуйте, zdv, Вы писали:

zdv>Очень интересно. А какие требования к кандидату, возможна ли удаленка на полный/неполный день? Резюме можете посмотреть здесь


Нет, удалёнку и частичную занятость мы не рассматриваем.
Яков Сироткин
http://www.telamon.ru/
yasha@telamon.ru
Re[3]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: zdv Россия  
Дата: 08.06.12 03:54
Оценка:
Здравствуйте, Яков Сироткин, Вы писали:

ЯС>Нет, удалёнку и частичную занятость мы не рассматриваем.

Очень жаль. Тема интересная, но переезд из Барнаула в Питер...
С уважением, Дмитрий
Re[3]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: carpenter СССР  
Дата: 08.06.12 07:27
Оценка:
Здравствуйте, Arsen.Shnurkov, Вы писали:

C>>если вам скорость надо увеличить — прогоните под vtune или кто там сча крутой


AS>они не тупые, наверняка они сначала хотят увеличить скорость алгоритмически


тут никогда не угадаешь
Re: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Handie  
Дата: 08.06.12 09:50
Оценка:
ЯС>Наша лаборатория финансируется за счёт «мегагранта» и мы способны предложить достойную зарплату. Руководитель лаборатории — Павел Певзнер. Если вас заинтересовала эта вакансия, пишите на .

Знакомый товарищ. Однажды он разбил голову о низкий козырек подъезда и моя супруга спасала ему жизнь обрабатывая рану йодом. Впрочем, благодарность Певзнеру не свойственна
Re: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Dmi3S Россия http://dmi3s.blogspot.com/
Дата: 08.06.12 21:30
Оценка:
Здравствуйте, Яков Сироткин, Вы писали:

ЯС> существующий код можно посмотреть в tar.gz.


JFYI:
dmi3s@asus:~/work/spades-2.1.0/src$ cmake -G "Unix Makefiles"
-- The C compiler identification is GNU
-- The CXX compiler identification is GNU
-- Check for working C compiler: /usr/bin/gcc
-- Check for working C compiler: /usr/bin/gcc -- works
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Check for working CXX compiler: /usr/bin/c++
-- Check for working CXX compiler: /usr/bin/c++ -- works
-- Detecting CXX compiler ABI info
-- Detecting CXX compiler ABI info - done
-- Try OpenMP C flag = [-fopenmp]
-- Performing Test OpenMP_FLAG_DETECTED
-- Performing Test OpenMP_FLAG_DETECTED - Success
-- Try OpenMP CXX flag = [-fopenmp]
-- Performing Test OpenMP_FLAG_DETECTED
-- Performing Test OpenMP_FLAG_DETECTED - Success
-- Found OpenMP: -fopenmp 
Making Release Configuration...
-- Found ZLIB: /usr/lib/i386-linux-gnu/libz.so (found version "1.2.3.4")
-- Boost version: 1.48.0
-- Found the following Boost libraries:
--   system
--   filesystem
--   iostreams
--   serialization
-- Configuring done
-- Generating done
-- Build files have been written to: /home/dmi3s/work/spades-2.1.0/src
dmi3s@asus:~/work/spades-2.1.0/src$ make
Scanning dependencies of target input
[  5%] Building CXX object io/CMakeFiles/input.dir/parser.cpp.o
Linking CXX static library libinput.a
[  5%] Built target input
Scanning dependencies of target spades
[ 11%] Building CXX object debruijn/CMakeFiles/spades.dir/main.cpp.o
In file included from /home/dmi3s/work/spades-2.1.0/src/debruijn/main.cpp:10:0:
/home/dmi3s/work/spades-2.1.0/src/debruijn/standard.hpp:17:17: fatal error: k.hpp: No such file or directory
compilation terminated.
make[2]: *** [debruijn/CMakeFiles/spades.dir/main.cpp.o] Error 1
make[1]: *** [debruijn/CMakeFiles/spades.dir/all] Error 2
make: *** [all] Error 2
[2] dmi3s@asus:~/work/spades-2.1.0/src$ find . -iname k.hpp


Т.е. неплохо бы поправить CMakeLists.txt на предмет проверки зависимости. ИМХО, конечно же.
Re[2]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Яков Сироткин Россия http://www.telamon.ru/
Дата: 09.06.12 08:10
Оценка:
Здравствуйте, Dmi3S, Вы писали:

ЯС>> существующий код можно посмотреть в tar.gz.

DS>/home/dmi3s/work/spades-2.1.0/src/debruijn/standard.hpp:17:17: fatal error: k.hpp: No such file or directory
DS>compilation terminated.
DS>make[2]: *** [debruijn/CMakeFiles/spades.dir/main.cpp.o] Error 1
DS>make[1]: *** [debruijn/CMakeFiles/spades.dir/all] Error 2
DS>make: *** [all] Error 2
DS>[2] dmi3s@asus:~/work/spades-2.1.0/src$ find . -iname k.hpp

DS>Т.е. неплохо бы поправить CMakeLists.txt на предмет проверки зависимости. ИМХО, конечно же.


Дмитрий, у нас действительно есть проблемы с компиляцией, но, честно говоря, не прочитав manual.html шансы запустить SPAdes практически равны нулю.
Яков Сироткин
http://www.telamon.ru/
yasha@telamon.ru
Re[3]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Dmi3S Россия http://dmi3s.blogspot.com/
Дата: 09.06.12 08:41
Оценка:
Здравствуйте, Яков Сироткин, Вы писали:

ЯС>Дмитрий, у нас действительно есть проблемы с компиляцией, но, честно говоря, не прочитав manual.html шансы запустить SPAdes практически равны нулю.


Да я не для запуска собирал. Хотел оценить проект по количеству warnings при сборке.

PS. Может, кому интересно будет: вывод cloc.

dmi3s@asus:~/work/spades-2.1.0$ cloc .
defined(%hash) is deprecated at /usr/bin/cloc line 1277.
    (Maybe you should just omit the defined()?)
    3279 text files.
    3060 unique files.                                          
     447 files ignored.

http://cloc.sourceforge.net v 1.53  T=26.0 s (103.5 files/s, 26367.4 lines/s)
--------------------------------------------------------------------------------
Language                      files          blank        comment           code
--------------------------------------------------------------------------------
C++                             908          39234          39016         201083
C/C++ Header                    965          37451          52140         151591
Perl                            360           8567           5647          39200
C                               159           4397           7031          29196
Bourne Shell                     41           3787           4340          24445
HTML                             38            679            326          11187
m4                               10            966            100           8393
Python                           92           1913            931           6884
make                             40            803            442           2111
Java                              5            173             73           1166
MATLAB                           39            188            226           1084
C Shell                          24             57             46            331
CSS                               2             28             17            125
PHP                               1              4              3             70
Bourne Again Shell                5             12             16             47
awk                               2              2              7             17
D                                 1              0              0              1
--------------------------------------------------------------------------------
SUM:                           2692          98261         110361         476931
--------------------------------------------------------------------------------
Re[4]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: MasterZiv СССР  
Дата: 09.06.12 13:30
Оценка:
On 06/09/2012 12:41 PM, Dmi3S wrote:

>

> Да я не для запуска собирал. Хотел оценить проект по количеству warnings при сборке.

Интересно, о чём может говорить кол-во варнингов при сборке...
при чём не КАЧЕСТВО, а именно КОЛИЧЕСТВО.
По-моему так ни о чём, кроме как озаботился ли автор кода задавливанием варнингов.
Posted via RSDN NNTP Server 2.1 beta
Re[5]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: Dmi3S Россия http://dmi3s.blogspot.com/
Дата: 09.06.12 16:00
Оценка: +1
Здравствуйте, MasterZiv, Вы писали:

MZ>Интересно, о чём может говорить кол-во варнингов при сборке...

MZ>при чём не КАЧЕСТВО, а именно КОЛИЧЕСТВО.
MZ>По-моему так ни о чём, кроме как озаботился ли автор кода задавливанием варнингов.

Чем больше, тем меньше вероятность заметить какой-то новый. Если же их over 9000, то это значит, что на предупреждения просто на...плевали. Я всегда пытался свести кол-во предупреждений к 0, а затем выставлять что-то вроде "threat warnings as errors": пусть каждый за свое предупреждение расписывается #pragma. Т.е. 0 предупреждений в относительно большом проекте, для меня, является показателем некоторой дисциплины кодирования.

Ну и, как контрпример, предлагаю оценить трудоемкости оценки _качества_ (sorry, не знаю как лучше сказать) 742 предупреждений. Это 1) много времени 2) мало удовольствия.

Вот как-то так.
Re[4]: Программист С++ для сборки редких бактерий (СПб, 80-120 т.р.)
От: hmich  
Дата: 09.06.12 16:13
Оценка:
Здравствуйте, Dmi3S, Вы писали:

DS>Да я не для запуска собирал. Хотел оценить проект по количеству warnings при сборке.


DS>PS. Может, кому интересно будет: вывод cloc.


В чем вообще смысл замерять статистику по всем файлам, если большинство кода скорее всего будет из внешних проектов? Если уж вам интересны эти параметры, стоит смотреть только по папке src, и даже в ней есть чужой код наподобие хэш таблиц от гугла.
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.