использования AI для детектирования вирусов - Информационная безопасность

я сейчас пишу дипломную работу и в качестве темы я выбрал написать engine который будет детектировать вирусы с использованием AI
детектор типа файлов и унпакеры я использую готовые

как вы считаете какие критерии бинарного файла можно взять за критерии детектирование вирусов

тк это учебный проект я планирую использовать

полный список вызываемых системных функций
последовательность вызова системных функций

n-gram первых 1024 команд выполняемых прилодением

как вы считаете какие еше критерии можно использовать

Здравствуйте, sergey2b, Вы писали:

я планировал опираться на теорию вот из этого видео
https://www.youtube.com/watch?v=VLQTRlLGz5Y

Здравствуйте, sergey2b, Вы писали:

S>я сейчас пишу дипломную работу и в качестве темы я выбрал написать engine который будет детектировать вирусы с использованием AI
S>детектор типа файлов и унпакеры я использую готовые

S>как вы считаете какие критерии бинарного файла можно взять за критерии детектирование вирусов

S>тк это учебный проект я планирую использовать

S>полный список вызываемых системных функций
S>последовательность вызова системных функций

S>n-gram первых 1024 команд выполняемых прилодением

S>как вы считаете какие еше критерии можно использовать

Самое интересное, что я тоже

Я уже спрашивал про это. Вот тема: Машинное обучение и вредоносные файлы

Все ascii строки из файла

Здравствуйте, vsb, Вы писали:

vsb>Все ascii строки из файла

Да строкам являющимся параметрами функций дают больший вес

Вам удалось получить вписать что то работающее ?
Если не секрет какой AI engine вы использовали

Здравствуйте, sergey2b, Вы писали:

S>Вам удалось получить вписать что то работающее ?
S>Если не секрет какой AI engine вы использовали

В процессе. Использую Keras со сверточной сетью.

Здравствуйте, sergey2b, Вы писали:

S>как вы считаете какие еше критерии можно использовать

на kaggle лет пять назад было соревнование на эту тему от вроде бы microsoft, там есть открытые блокноты с решениями, думаю стоит их посмотреть (с какой стороны заходили и какие критерии использовали)

Здравствуйте, BlackEric, Вы писали:

https://dl1.newoutlook.it/book/2021/03/21/Malware.pdf

https://github.com/d84-n1nj4/malwareDataScience/tree/master/ch8/code

после некоторой правки пример из 8 главы заработал и даже детектирует
но я хотел бы получить доступ к модели из С/С++

но пока не знаю как

Здравствуйте, sergey2b, Вы писали:

vsb>>Все ascii строки из файла

S>Да строкам являющимся параметрами функций дают больший вес

А смысл? В одной конторе так заманались бороться с false positive'ами на основе анализа строк, что стали их все тупо шифровать. Это сделать просто — написал макрос S() и пару функций crypt()/decrypt(), и готово. И ведь контора даже не зловреды писала, а просто софт в тех категориях, которые АВ не любят. Неужели авторы настоящих зловредов тупее?

Здравствуйте, mtnl, Вы писали:

M>Здравствуйте, sergey2b, Вы писали:

S>>как вы считаете какие еше критерии можно использовать

M>на kaggle лет пять назад было соревнование на эту тему от вроде бы microsoft, там есть открытые блокноты с решениями, думаю стоит их посмотреть (с какой стороны заходили и какие критерии использовали)

Вот этот конкурс: Microsoft Malware Classification Challenge (BIG 2015)

Здравствуйте, sergey2b, Вы писали:

S>Здравствуйте, BlackEric, Вы писали:

S>https://dl1.newoutlook.it/book/2021/03/21/Malware.pdf

S>https://github.com/d84-n1nj4/malwareDataScience/tree/master/ch8/code

S>после некоторой правки пример из 8 главы заработал и даже детектирует
S>но я хотел бы получить доступ к модели из С/С++

S>но пока не знаю как

А что за правки? Может и себе использую.

Я потому и хочу использовать Keras, что он позволяет сохранить модель в стандартный h5 формат и использовать в том же dotnet.

Здравствуйте, BlackEric, Вы писали:

BE>Я потому и хочу использовать Keras, что он позволяет сохранить модель в стандартный h5 формат и использовать в том же dotnet.

я собирал ubuntu 22.04 python2

http://files.rsdn.org/56990/ch8.zip

напишите если будут проблеммы

Здравствуйте, BlackEric, Вы писали:

BE>В процессе. Использую Keras со сверточной сетью.
Я бы на твоем месте за основу взял LSTM (RNN и т.п.) и к ней уже добавлял сверточные слои.

Здравствуйте, sergey2b, Вы писали:

S>Здравствуйте, BlackEric, Вы писали:

BE>>Я потому и хочу использовать Keras, что он позволяет сохранить модель в стандартный h5 формат и использовать в том же dotnet.

S>я собирал ubuntu 22.04 python2

S>http://files.rsdn.org/56990/ch8.zip

S>напишите если будут проблеммы

Спасибо, буду изучать.

Есть еще такая штука: Elastic Malware Benchmark for Empowering Researchers

Я пробую делать пока на ней.

Здравствуйте, sergey2b, Вы писали:

S>я сейчас пишу дипломную работу и в качестве темы я выбрал написать engine который будет детектировать вирусы с использованием AI
S>детектор типа файлов и унпакеры я использую готовые

Дипломная работа конечно это неплохо, но с точки зрения практической пользы очень огромные вопросы возникают. Начиная с определения, а что собственно говоря, собираешь детектировать? Я помню еще довольно давно были большие споры и в общем безупречно четкого определения, что такое вирус (компьютерный) кажется никто родить так и не смог.

Я знаю как конвертировать в деньги, тема не 100% но шанс хороший

Я когда то написал metadefender.com и продал
Теперь я придумал как улучшить его функционал при помощи AI

Здравствуйте, Michael7, Вы писали:

M>Начиная с определения, а что собственно говоря, собираешь детектировать? Я помню еще довольно давно были большие споры и в общем безупречно четкого определения, что такое вирус (компьютерный) кажется никто родить так и не смог.

Кажется, что определение — это как раз фигня. Есть вполне конкретная база программ, которые считаются вредоносными, есть все остальные. Чтобы нейросеть научилась детектировать лица ей не надо давать определение лица. Так и тут: чем круче ~~эвристики~~ алгоритмы классификации, тем круче антивирус. Кажется, та же Positive technologies нейросетями для того уже лет 10 занимается.

Здравствуйте, Nuzhny, Вы писали:

N>Кажется, что определение — это как раз фигня. Есть вполне конкретная база программ, которые считаются вредоносными, есть все остальные.

Понятие вредоносных еще более мутное, чем вирусов. Туда, например, кряки помещают или емнип даже какие-то читы к онлайн-играм типа WoW попадали.

N> Чтобы нейросеть научилась детектировать лица ей не надо давать определение лица.

При этом ей важно давать качественно подобранный датасет, а не мусор. То есть, если будешь кормить нейросеть, кроме человеческих лиц, еще и изображениями медвежих задниц и восковых свечек, то полную чепуху получишь, а не распознавание. И вообще, нейросеть — это не черный ящик с магией, для достижения действительно полезных практических результатов надо хорошо понимать что и как делаешь. А тут проблема прямо сразу рисуется — не совсем понятно, что вообще объектом обучения считать. С ней будет или большое количество ложно-положительных результов или низкая вероятность детекции.

Здравствуйте, Michael7, Вы писали:

M>Понятие вредоносных еще более мутное, чем вирусов. Туда, например, кряки помещают или емнип даже какие-то читы к онлайн-играм типа WoW попадали.

И в чём проблема-то? Классификация бывает не только бинарная.

M>А тут проблема прямо сразу рисуется — не совсем понятно, что вообще объектом обучения считать. С ней будет или большое количество ложно-положительных результов или низкая вероятность детекции.

Так в чём проблема? Ты можешь описать? Почему нельзя классифицировать не бинарно (вредно, полезно), а поумнее? Что мешает сделать много разных классов, ансамбль сетей и т.д.?

	От:	sergey2b
	Дата:	26.10.23 13:48
	Оценка:

	От:	sergey2b
	Дата:	26.10.23 18:31
	Оценка:

От:	BlackEric	http://black-eric.lj.ru
Дата:	27.10.23 09:23
Оценка:	12 (1)

	От:	vsb
	Дата:	27.10.23 09:27
	Оценка:	12 (1)

	От:	sergey2b
	Дата:	27.10.23 13:01
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	31.10.23 17:05
Оценка:	12 (1)

	От:	Alekzander
	Дата:	29.10.23 11:05
	Оценка:	+1

	От:	Vzhyk2
	Дата:	30.10.23 06:36
	Оценка: