Школа данных Яндекса - имеет ли смысл? - Образование и наука

Здравствуйте, chaotic-good, Вы писали:

CG>Там ведь не программированию учат а анализу данных, я деталей не знаю, но всегда думал что там учат машинному обучению и информационному поиску, а точнее машинному обучению в контексте информационного поиска. Ну и попробуй изобрети самостоятельно преобразование Барроуза-Уиллера или SVM, умник!
Мило и в лужу. Строго говоря МОВ (разделяющая гиперплоскость с максимальным отступом) как идею изобретали наверное все, кто так или иначе занимался анализом данных. Единственный остроумный ход там -- представить в виде дуальной задачи. БВТ просто идея, где все решает реализация.

Здравствуйте, chaotic-good, Вы писали:

CG>Там ведь не программированию учат а анализу данных,

Мышление процесс, напрямую связанный с набором формальных правил представления сущностей и отношений между
ними aka Язык. Поэтому наилучший способ изучать существующие наработки-это изучать их описание на конкретном ЯП.
Вот прочитать про алгоритм шифрования в википедии или его же на конкретном ЯП-это две большие разницы.
Если целью ШАД-а является обучение не тех, кто знает алгоритмы и умеет оперативно расписать реализацию,
а тех кто их придумывет, то им нужно не существующее, во всех википедиях расписанное, впаривать школоте
всякой, образом зубрёжки, а предлагать денежные гранты и вознаграждения за разработку алгоритма, обеспечивающего
достижение некоторых заявленных целей, соответствие данным заявленным параметрам. Тогда профи подтянутся.

>я деталей не знаю, но всегда думал что там учат машинному обучению и информационному поиску, а точнее машинному обучению в контексте информационного поиска. Ну и

Всё сущестующее на уровне профи нельзя выучить даже за всю свою жинь. Но каждое в отдельности постигается быстро,
и на достаточно профессиональном уровне, когда оно становится нужным. И поэтому все эти "обучения" выглядят смешно,
за исключением "обучения" в ВУЗах-там котирующуюся корочку дают. А ШАД-это "Яша пиарится".

>попробуй изобрети самостоятельно преобразование Барроуза-Уиллера или SVM, умник!

Прочитал википедию и вперёд строчить реализацию. Что тут такого, для чего нужно по каким-то школярникам шарахаться?

D>Мило и в лужу. Строго говоря МОВ (разделяющая гиперплоскость с максимальным отступом) как идею изобретали наверное все, кто так или иначе занимался анализом данных. Единственный остроумный ход там -- представить в виде дуальной задачи. БВТ просто идея, где все решает реализация.

Анализом данных я не занимаюсь, поэтому привел в качестве примера то, о чем знал. SVM вроде как в середине 90-х только изобрели, раньше аназилом данных не занимались что-ли? А БВТ IMO — очень не интуитивен, придумать что-то подобное самостоятельно, если ты не занимаешься научной работой а являешься практикующим разработчиком — крайне сложно, опять же IMO. Ну и последнее — после "мило и в лужу" требуется хоть какие-нибудь аргументы против приводить. "БВТ просто идея, где все решает реализация" — просто фраза с которой можно соглашаться а можно и не соглашаться, как и все остальное.

S>Мышление процесс, напрямую связанный с набором формальных правил представления сущностей и отношений между
S>ними aka Язык. Поэтому наилучший способ изучать существующие наработки-это изучать их описание на конкретном ЯП.
S>Вот прочитать про алгоритм шифрования в википедии или его же на конкретном ЯП-это две большие разницы.
S>Если целью ШАД-а является обучение не тех, кто знает алгоритмы и умеет оперативно расписать реализацию,
S>а тех кто их придумывет, то им нужно не существующее, во всех википедиях расписанное, впаривать школоте
S>всякой, образом зубрёжки, а предлагать денежные гранты и вознаграждения за разработку алгоритма, обеспечивающего
S>достижение некоторых заявленных целей, соответствие данным заявленным параметрам. Тогда профи подтянутся.

Так там же обычно всякие фреймверки используются (weka, scikit-larn итд), можно заниматься анализом данных не умея особо программировать даже. Программировать нужно уметь тем, кто реализует все те алгоритмы и модели, которые используют для анализа данных. Немножко нужно уметь программировать для того, чтобы готовить данные, векторизация, data munging и тд. А дальше все выглядит как программа на матлабе.

>>я деталей не знаю, но всегда думал что там учат машинному обучению и информационному поиску, а точнее машинному обучению в контексте информационного поиска. Ну и
S>Всё сущестующее на уровне профи нельзя выучить даже за всю свою жинь. Но каждое в отдельности постигается быстро,
S>и на достаточно профессиональном уровне, когда оно становится нужным. И поэтому все эти "обучения" выглядят смешно,
S>за исключением "обучения" в ВУЗах-там котирующуюся корочку дают. А ШАД-это "Яша пиарится".

IMO, ШАД это способ попасть в яндекс или просто научиться вещам, которым в большинстве отечественных вузов не научат. Если ты состоявшийся профессионал то это тебе едва ли понадобится, проще книжку-другую прочитать. Вчерашним студентам — кто знает, может и полезно.

>>попробуй изобрети самостоятельно преобразование Барроуза-Уиллера или SVM, умник!
S>Прочитал википедию и вперёд строчить реализацию. Что тут такого, для чего нужно по каким-то школярникам шарахаться?

Для начала нужно знать что оно такое есть и как его использовать.

Здравствуйте, chaotic-good, Вы писали:

D>>Мило и в лужу. Строго говоря МОВ (разделяющая гиперплоскость с максимальным отступом) как идею изобретали наверное все, кто так или иначе занимался анализом данных. Единственный остроумный ход там -- представить в виде дуальной задачи. БВТ просто идея, где все решает реализация.

CG>Анализом данных я не занимаюсь, поэтому привел в качестве примера то, о чем знал. SVM вроде как в середине 90-х только изобрели,
72 или 73 год емнип, в книжке 76 он уже был.

CG> А БВТ IMO — очень не интуитивен, придумать что-то подобное самостоятельно
В данном случае H пропущено зря. Если ты занимаешься сжатием, то в случае гладкого сигнала самое разумное передавать не само число, а его разность с предыдущим отсчетом. До этого самые дебили доходили своим умом. А отсюда до БВТ ровно два шага.

CG>>Анализом данных я не занимаюсь, поэтому привел в качестве примера то, о чем знал. SVM вроде как в середине 90-х только изобрели,
D>72 или 73 год емнип, в книжке 76 он уже был.

Вапник в 93-м году его придумал.

CG>> А БВТ IMO — очень не интуитивен, придумать что-то подобное самостоятельно
D>В данном случае H пропущено зря. Если ты занимаешься сжатием, то в случае гладкого сигнала самое разумное передавать не само число, а его разность с предыдущим отсчетом. До этого самые дебили доходили своим умом. А отсюда до БВТ ровно два шага.

Извини пожалуйста за мою глупость и нескромность, но не мог бы ты объяснить, каким образом получается два шага от delta encoding до BWT? И какая связь между delta encoding и BWT?

Здравствуйте, chaotic-good, Вы писали:

CG>Вапник в 93-м году его придумал.
Это интересно откуда такая чушь? Я видел в книжке 76, википедия говорит, что в 1963.

CG>>> А БВТ IMO — очень не интуитивен, придумать что-то подобное самостоятельно
D>>В данном случае H пропущено зря. Если ты занимаешься сжатием, то в случае гладкого сигнала самое разумное передавать не само число, а его разность с предыдущим отсчетом. До этого самые дебили доходили своим умом. А отсюда до БВТ ровно два шага.

CG>Извини пожалуйста за мою глупость и нескромность, но не мог бы ты объяснить, каким образом получается два шага от delta encoding до BWT? И какая связь между delta encoding и BWT?
Тривиальная. Шаг первый -- для уменьшения избыточности в тексте необходимо кодировать не сам текст а его разность с чем-то. Шаг второй, чтобы это хорошо сжималось, надо одинаковые символы/разности хранить в одном месте (сортировку). Шаг третий -- придумать как сделать обратимую сортировку (тут довольно остроумно_.

CG>>Вапник в 93-м году его придумал.
D>Это интересно откуда такая чушь? Я видел в книжке 76, википедия говорит, что в 1963.

Из вики.

The original SVM algorithm was invented by Vladimir N. Vapnik and the current standard incarnation (soft margin) was proposed by Corinna Cortes and Vapnik in 1993 and published in 1995.

CG>>>> А БВТ IMO — очень не интуитивен, придумать что-то подобное самостоятельно
D>>>В данном случае H пропущено зря. Если ты занимаешься сжатием, то в случае гладкого сигнала самое разумное передавать не само число, а его разность с предыдущим отсчетом. До этого самые дебили доходили своим умом. А отсюда до БВТ ровно два шага.

CG>>Извини пожалуйста за мою глупость и нескромность, но не мог бы ты объяснить, каким образом получается два шага от delta encoding до BWT? И какая связь между delta encoding и BWT?
D>Тривиальная. Шаг первый -- для уменьшения избыточности в тексте необходимо кодировать не сам текст а его разность с чем-то. Шаг второй, чтобы это хорошо сжималось, надо одинаковые символы/разности хранить в одном месте (сортировку). Шаг третий -- придумать как сделать обратимую сортировку (тут довольно остроумно_.

Я правильно понимаю, что для того, чтобы изобрести BWT, нужно сначала осознать что кодировать нужно именно разность текста с чем-то, потом (внезапно) осознать, что одинаковые символы нужно хранить в одном месте, а потом — взять и придумать BWT? Я ничего не упустил? Ну и мой вопрос о том, при чем тут вообще delta encoding, остался без ответа.

Здравствуйте, chaotic-good, Вы писали:

CG>>>Вапник в 93-м году его придумал.
D>>Это интересно откуда такая чушь? Я видел в книжке 76, википедия говорит, что в 1963.

CG>Из вики.
CG>

CG>The original SVM algorithm was invented by Vladimir N. Vapnik and the current standard incarnation (soft margin) was proposed by Corinna Cortes and Vapnik in 1993 and published in 1995.

В википедии чухня, читай русскую, если уж так хочешь, в ней написан 1963 год, тем более что оригинальный алгоритм на русском был. Может, на 1963, но точно меньше 76.

CG>Я правильно понимаю, что для того, чтобы изобрести BWT, нужно сначала осознать что кодировать нужно именно разность текста с чем-то, потом (внезапно) осознать, что одинаковые символы нужно хранить в одном месте, а потом — взять и придумать BWT? Я ничего не упустил?
Потом придумать как это восстанавливать. Нет, ничего.

CG> Ну и мой вопрос о том, при чем тут вообще delta encoding, остался без ответа.
Весело, ты только что сам его процитировал, когда ничего не упускал.

D>В википедии чухня, читай русскую, если уж так хочешь, в ней написан 1963 год, тем более что оригинальный алгоритм на русском был. Может, на 1963, но точно меньше 76.

пруфлинк? в русской википедии нет ни даты ни даже упоминания автора

CG>>Я правильно понимаю, что для того, чтобы изобрести BWT, нужно сначала осознать что кодировать нужно именно разность текста с чем-то, потом (внезапно) осознать, что одинаковые символы нужно хранить в одном месте, а потом — взять и придумать BWT? Я ничего не упустил?
D>Потом придумать как это восстанавливать. Нет, ничего.

Вопрос был о том, как среднему инженеру додуматься до этого преобразования (прямого и обратного). Естественно, все знают что повторяющиеся и просто близкие последовательности символов хорошо жмутся, это не откровение ни для кого. Но каким должен быть ход мысли у гипотетического инженера занимающегося сжатием, чтобы он мог придумать BWT? Само преобразование очень неинтуитивно для понимания, как к нему можно прийти самостоятельно — для меня загадка, даже если известно что требуется получить на выходе. Я конечно всего лишь туповатый инженер, но ведь ты писал что это элементарно, значит даже я должен быть способен до этого додуматься самостоятельно!

CG>> Ну и мой вопрос о том, при чем тут вообще delta encoding, остался без ответа.
D>Весело, ты только что сам его процитировал, когда ничего не упускал.

Если у тебя есть стока "АААА" то кодирование разностями даст тебе массив [192, 0, 0, 0], ну и так каким же образом BWT помогает преобразовать текст в форму, которая хорошо пожмется с помощью разностей?
BWT преобразует текст в форму, которая хорошо жмется с помощью RLE и MTF, может конечно и delta использоваться, но на практике я дельту не встречал в связке с BWT.

CG>The original SVM algorithm was invented by Vladimir N. Vapnik and the current standard incarnation (soft margin) was proposed by Corinna Cortes and Vapnik in 1993 and published in 1995.

Не читай советских газет, точнее английскую википедию. Читай русскую

Алгоритм построения оптимальной разделяющей гиперплоскости, предложенный в 1963 году Владимиром Вапником и Алексеем Червоненкисом — алгоритм линейной классификации.

А лучше, если хочешь разобраться, читай источник (например)

Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.

CG>Я правильно понимаю, что для того, чтобы изобрести BWT, нужно сначала осознать что кодировать нужно именно разность текста с чем-то, потом (внезапно) осознать, что одинаковые символы нужно хранить в одном месте, а потом — взять и придумать BWT?
Правильно.

CG>при чем тут вообще delta encoding, остался без ответа.
Интересное утверждение, тем более что ответ ты приводил, когда ничего не упускал.

От:	denisko	http://sdeniskos.blogspot.com/
Дата:	14.01.15 14:15
Оценка:

	От:	smeeld
	Дата:	14.01.15 14:40
	Оценка:

	От:	chaotic-good
	Дата:	15.01.15 12:40
	Оценка:

	От:	chaotic-good
	Дата:	15.01.15 12:53
	Оценка:

От:	denisko	http://sdeniskos.blogspot.com/
Дата:	15.01.15 14:54
Оценка: