Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM?
Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?
Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.
Здравствуйте, seas, Вы писали:
S>Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM? S>Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?
S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.
Читал про определение писателя по тексту. Но там речь шла о достаточно больших объёмах — от десятка страниц, по-моему. Алгоритмов не скажу.
S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.
S>Идеи?
А зачем это вам понадобилось? Анонимов банить? Или десидентов вычислять?
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, Erop, Вы писали:
S>>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.
S>>Идеи?
E>А зачем это вам понадобилось? Анонимов банить? Или десидентов вычислять?
Пока просто интересно. Но в конечном счете, если чо будет — хочу прикрутить к icq. Есть интерес, пока неденежный.
seas wrote: > > Пока просто интересно. Но в конечном счете, если чо будет — хочу > прикрутить к icq. Есть интерес, пока неденежный.
Ну тогда не морочьте себе голову.
Время на изучение данной темы все одно не окупится.
Здравствуйте, seas, Вы писали:
S>hi,
S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.
S>Идеи?
Есть у меня одна статейка в тему. Если интересно, то могу скинуть.
Здравствуйте, Sergey Chadov, Вы писали:
SC>Здравствуйте, tinytjan, Вы писали:
J>>>Есть у меня одна статейка в тему. Если интересно, то могу скинуть. T>>Интересно
SC>Так всем интересно...
Дык что конкретно интересно. Очевидно, что надежная идентификация возможно только если собран достаочный объем информации, а не по одному единственному предложению.
Здравствуйте, jhng, Вы писали:
J>>>>Есть у меня одна статейка в тему. Если интересно, то могу скинуть. T>>>Интересно
SC>>Так всем интересно...
J>Дык что конкретно интересно. Очевидно, что надежная идентификация возможно только если собран достаочный объем информации, а не по одному единственному предложению.
Здравствуйте, jhng, Вы писали:
J>Дык что конкретно интересно. Очевидно, что надежная идентификация возможно только если собран достаочный объем информации, а не по одному единственному предложению.
Немного переформулирую:
Чем больше объем собранной информации, тем надежней идентификация.
На самом деле могут найтись такие перлы, которых можно идентифицировать и по одному предложению
ЗЫЖ Можно ли выкладывать вами присланное на всеобщее обозрение?
Здравствуйте, tinytjan, Вы писали:
T>Здравствуйте, jhng, Вы писали:
J>>Дык что конкретно интересно. Очевидно, что надежная идентификация возможно только если собран достаочный объем информации, а не по одному единственному предложению.
T>Немного переформулирую: T>Чем больше объем собранной информации, тем надежней идентификация. T>На самом деле могут найтись такие перлы, которых можно идентифицировать и по одному предложению
С этим никто не спорит, но, согласитесь, в общем случае подход, основанный на идентификации по таким вот "перлам" не применим. А чистая статистика наверняка будет проигрывать полуэвристическим алгоритмам. Истина как обычно где-то по середине. T>ЗЫЖ Можно ли выкладывать вами присланное на всеобщее обозрение?
Да пожалуйста. Статья, насколько мне известно, уже опубликована в журнале "Радиотехника и электроника".
Здравствуйте, seas, Вы писали:
S>hi,
S>Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM? S>Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?
S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.
S>Идеи?
Для определения авторства текста можно использовать марковские модели. Вкратце, составляется таблица вероятности появления цепочки из N-слов после определенного слова. Но, такая методика хорошо работает на больших объемах текстов, да и то не всегда дает гарантированный результат.
Здравствуйте, tinytjan, Вы писали:
T>Прошу прощения за задержку. T>Статью можно скачать тут
А что там про классификацию авторов есть? Ну есть пример, который полагается на примитивный подсчет количества слов в предложениях. Вроде все. В поставленной задаче, главное -- это выделить чисто лингвистические критерии психологических характеристик автора. Кто-то поставил вторую задачу: определение авторства по тексту. Эти две задачи друг с другом связаны очень слабо, хотя есть идея попробовать использовать закономерности в текстах, которые позволяют отличать авторов друг от друга. В общем, про исходную задачу в статье вообще ничего нет. Вот что интересно, попробовать использовать описанный алгоритм для задачи классификации текстов по достаточно объемной онтологии. В статье онтология плоская, есть N непересекающихся областей и задача сводится к попытке соотнесения выборки к той или иной области. В реальных онтологиях задача сложнее. Там между элементами онтологий есть дополнительные отношения. Это прежде всего отношение иерархии, т.е. предок-потомок, а также различные перекрестные отношения между элементами разных уровней в иерархии. Адаптировать такой алгоритм так, чтобы он правильно работал на такой онтологии — нормальная задача для диссертации.
Здравствуйте, seas, Вы писали:
S>hi,
S>Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM? S>Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?
Мне кажется, для сообщений это вообще невозможно, тексты короткие, значит статистики мало. Кроме того, идентификация по стилю здесь невозможна, ибо стиль в сообщениях вырожден. Вообще, сама по себе задача неоднозначная. Вот скажем, классифицируем мы ужастик, стилистика там понятна, словарь тоже. Классифицировать текст как ужастик мы вполне можем. Но что мы сможем сказать о личности автора? Наверное немногое. Значит надо оценивать не жанровые тексты, а другие, что-нибудь эпистолярное наверное. Но там уж точно тексты коротки и статистики не собрать.
S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.
Это делалось уже и есть работающие системы. Самый простой способ определить авторство текста -- это просто подсчитать словарь автора, частотное распределение слов в тексте. Словари достаточно индивидуальны и на этом критерии можно объемные тексты различать. Можно еще попробовать подсчитать условные вероятности появления слов в предложениях, если в них уже присутствуют те или иные слова. Еще метод -- использовать статистику стиля. Но это уже сложнее, надо синтаксический анализ текста делать, выделять обороты и т.п. Вообще, задача определения авторства схожа с задачей определения стиля текста. Последняя сейчас весьма актуальна, надо смотреть в сторону алгоритмов антиспама. Там спамовый стиль хорошо распознается чисто статистически.
Здравствуйте, mefrill, Вы писали:
S>>Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM? S>>Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?
M>Мне кажется, для сообщений это вообще невозможно, тексты короткие, значит статистики мало. Кроме того, идентификация по стилю здесь невозможна, ибо стиль в сообщениях вырожден. Вообще, сама по себе задача неоднозначная. Вот скажем, классифицируем мы ужастик, стилистика там понятна, словарь тоже. Классифицировать текст как ужастик мы вполне можем. Но что мы сможем сказать о личности автора? Наверное немногое.
Портрет это то, что проявляется вне зависимости от жанра. Понятия не имею, как его получать, разве что про модальности могу сказать (если я понял то, что имелось ввиду).
По модальностям людей делят на визуалов, аудиалов и кинестетиков. Модальность определяет способ думать и способ говорить об этом. Например, кинестетик скажет "я _ощущаю_ ...", визуал — "я _вижу_ ..", аудиал... ну не знаю, но что-то в этом духе И думают они, вроде, тоже немного по-разному, но тут уж я совсем ничего сказать смогу — полный профан.
Это я к тому, что такие особенности проявляются в любом авторском тексте.
Здравствуйте, mefrill, Вы писали:
M>Здравствуйте, tinytjan, Вы писали:
T>>Прошу прощения за задержку. T>>Статью можно скачать тут
M>А что там про классификацию авторов есть? Ну есть пример, который полагается на примитивный подсчет количества слов в предложениях. Вроде все. В поставленной задаче, главное -- это выделить чисто лингвистические критерии психологических характеристик автора. Кто-то поставил вторую задачу: определение авторства по тексту. Эти две задачи друг с другом связаны очень слабо, хотя есть идея попробовать использовать закономерности в текстах, которые позволяют отличать авторов друг от друга. В общем, про исходную задачу в статье вообще ничего нет. Вот что интересно, попробовать использовать описанный алгоритм для задачи классификации текстов по достаточно объемной онтологии. В статье онтология плоская, есть N непересекающихся областей и задача сводится к попытке соотнесения выборки к той или иной области. В реальных онтологиях задача сложнее. Там между элементами онтологий есть дополнительные отношения. Это прежде всего отношение иерархии, т.е. предок-потомок, а также различные перекрестные отношения между элементами разных уровней в иерархии. Адаптировать такой алгоритм так, чтобы он правильно работал на такой онтологии — нормальная задача для диссертации.
Честно говоря, не смотрел статью ибо абсолютно не было времени, просто выложил на всеобщее обозрение.
Обязательно посмотрю если время таки появится.
Здравствуйте, mefrill, Вы писали:
M>А что там про классификацию авторов есть? Ну есть пример, который полагается на примитивный подсчет количества слов в предложениях. Вроде все. В поставленной задаче, главное -- это выделить чисто лингвистические критерии психологических характеристик автора. Кто-то поставил вторую задачу: определение авторства по тексту. Эти две задачи друг с другом связаны очень слабо, хотя есть идея попробовать использовать закономерности в текстах, которые позволяют отличать авторов друг от друга. В общем, про исходную задачу в статье вообще ничего нет. Вот что интересно, попробовать использовать описанный алгоритм для задачи классификации текстов по достаточно объемной онтологии. В статье онтология плоская, есть N непересекающихся областей и задача сводится к попытке соотнесения выборки к той или иной области. В реальных онтологиях задача сложнее. Там между элементами онтологий есть дополнительные отношения. Это прежде всего отношение иерархии, т.е. предок-потомок, а также различные перекрестные отношения между элементами разных уровней в иерархии. Адаптировать такой алгоритм так, чтобы он правильно работал на такой онтологии — нормальная задача для диссертации.
Так критерий вы можете сами задать какой захотите. Главное, чтоб имел численное выражение Собственно статья — это попытка приспособить существующий матаппарат к задаче классификации дикторов. Если можете предложить что-то более эффективное, то welcome! Алгоритм, предложенный в этой статье по сути отправная точка. А навернуть там можно много чего.
Здравствуйте, jhng, Вы писали:
J>Так критерий вы можете сами задать какой захотите. Главное, чтоб имел численное выражение Собственно статья — это попытка приспособить существующий матаппарат к задаче классификации дикторов. Если можете предложить что-то более эффективное, то welcome! Алгоритм, предложенный в этой статье по сути отправная точка. А навернуть там можно много чего.
Так таких методов много, надо просто взять учебник по машинному обучению и посмотреть. Считается, что байесовская модель неплохо работает с классификацией текстов. Главная проблема состоит в том, чтобы выбрать адекватные критерии (признаки), по которым набирать статистику.