борьба с копипастами
От: oleggar  
Дата: 19.03.14 06:01
Оценка:
доброе утро.Я тут анализировал индусский код и начал бороться с масштабными копипастами.Я собрался написать утилиту, которая сканит исходники и ищет скопированные куски.Как вам идея,и будет ли кто тестить ?работать должно для всех языков, хоть javascript или brainfuck . опасаюсь только за скорость,но на ночь можно оставлять скан.
Re: борьба с копипастами
От: Vlad_SP  
Дата: 19.03.14 06:14
Оценка:
Здравствуйте, oleggar,

Гмм. Мне представляется, здесь главная проблема будет в определении "копипасты" (т.е.: какой код считать копипастой, а какой — нет?) Сильно упрощенный пример: куски кода
for(int i = 0; i < N; ++i)
{
}

for(int k = 0; k < N; k++)
{
}
cчитаются копипастой или нет?
Re[2]: борьба с копипастами
От: oleggar  
Дата: 19.03.14 06:17
Оценка:
мысль понятна.для начала хочу бороться с полными копипастами (совпадения 100%) блоками от 10 строк или от 300-500 байт
Re: борьба с копипастами
От: Nonmanual Worker  
Дата: 19.03.14 06:23
Оценка:
Здравствуйте, oleggar, Вы писали:

O>доброе утро.Я тут анализировал индусский код и начал бороться с масштабными копипастами.Я собрался написать утилиту, которая сканит исходники и ищет скопированные куски.Как вам идея,и будет ли кто тестить ?работать должно для всех языков, хоть javascript или brainfuck . опасаюсь только за скорость,но на ночь можно оставлять скан.

Не больно ли крутая задумка — работа для всех языков? Или ты думаешь искать только точные копипасты?
Для популярных языков такие тулзы уже есть, чем твоя будет лучше существующих?
Re[2]: борьба с копипастами
От: oleggar  
Дата: 19.03.14 06:29
Оценка:
Здравствуйте, Nonmanual Worker, Вы писали:

NW>Здравствуйте, oleggar, Вы писали:


O>>доброе утро.Я тут анализировал индусский код и начал бороться с масштабными копипастами.Я собрался написать утилиту, которая сканит исходники и ищет скопированные куски.Как вам идея,и будет ли кто тестить ?работать должно для всех языков, хоть javascript или brainfuck . опасаюсь только за скорость,но на ночь можно оставлять скан.

NW>Не больно ли крутая задумка — работа для всех языков? Или ты думаешь искать только точные копипасты?
NW>Для популярных языков такие тулзы уже есть, чем твоя будет лучше существующих?

---
да, хочу искать точные копипасты универсально для всех языков
Re: борьба с копипастами
От: Аноним  
Дата: 19.03.14 07:08
Оценка:
Здравствуйте, oleggar, Вы писали:

O>доброе утро.Я тут анализировал индусский код и начал бороться с масштабными копипастами.Я собрался написать утилиту, которая сканит исходники и ищет скопированные куски.Как вам идея,и будет ли кто тестить ?


O>работать должно для всех языков, хоть javascript или brainfuck . опасаюсь только за скорость,но на ночь можно оставлять скан.


Для всех — значит без семантического анализа?

Для Явы есть прекрасная библиотека http://pmd.sourceforge.net/pmd-4.2.5/cpd.html

Умеет делать семантический анализ (хоть и не самый изощренный), поддерживается всеми системами сборки и интеграции.

На их странице утверждается, что поддерживают C++ и PHP.

O>Как вам идея,и будет ли кто тестить ?


Идея прекрасная, только такие инструменты уже есть и твои тестить будет смысл, если ты напишешь Maven плагин, чтобы люди могли подключить к интеграции, погонять и сравнить.
Re[2]: борьба с копипастами
От: Аноним  
Дата: 19.03.14 07:22
Оценка:
V_S>[/ccode]cчитаются копипастой или нет?

Конечно, считаются. Тул который "для начала будет искать 100% совпадения" нафиг не нужен, потому что уже существуют, которые умеют больше
Re: борьба с копипастами
От: Нахлобуч Великобритания https://hglabhq.com
Дата: 19.03.14 12:12
Оценка:
Здравствуйте, oleggar, Вы писали:

O>доброе утро.Я тут анализировал индусский код и начал бороться с масштабными копипастами.Я собрался написать утилиту, которая сканит исходники и ищет скопированные куски.


Simian:

...In fact, simian can be used on any human readable files such as ini files, deployment descriptors, you name it.

HgLab: Mercurial Server and Repository Management for Windows
Re: борьба с копипастами
От: btn1  
Дата: 19.03.14 21:43
Оценка:
Здравствуйте, oleggar, Вы писали:

O>доброе утро.Я тут анализировал индусский код и начал бороться с масштабными копипастами.


Всё уже украдено до нас.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.