Идентификация собеседника
От: seas  
Дата: 24.10.07 08:44
Оценка:
hi,

Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM?
Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?

Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.

Идеи?
Re: Идентификация собеседника
От: SergH Россия  
Дата: 24.10.07 09:23
Оценка:
Здравствуйте, seas, Вы писали:

S>Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM?

S>Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?

S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.


Читал про определение писателя по тексту. Но там речь шла о достаточно больших объёмах — от десятка страниц, по-моему. Алгоритмов не скажу.
Делай что должно, и будь что будет
Re: Идентификация собеседника
От: Erop Россия  
Дата: 24.10.07 12:02
Оценка:
S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.

S>Идеи?


А зачем это вам понадобилось? Анонимов банить? Или десидентов вычислять?
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re[2]: Идентификация собеседника
От: seas  
Дата: 24.10.07 12:20
Оценка:
Здравствуйте, Erop, Вы писали:

S>>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.


S>>Идеи?


E>А зачем это вам понадобилось? Анонимов банить? Или десидентов вычислять?

Пока просто интересно. Но в конечном счете, если чо будет — хочу прикрутить к icq. Есть интерес, пока неденежный.
Re[3]: Идентификация собеседника
От: Vzhyk  
Дата: 24.10.07 19:49
Оценка:
seas wrote:
>
> Пока просто интересно. Но в конечном счете, если чо будет — хочу
> прикрутить к icq. Есть интерес, пока неденежный.
Ну тогда не морочьте себе голову.
Время на изучение данной темы все одно не окупится.
Posted via RSDN NNTP Server 2.1 beta
Re: Идентификация собеседника
От: jhng Россия  
Дата: 26.10.07 18:53
Оценка:
Здравствуйте, seas, Вы писали:

S>hi,


S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.


S>Идеи?


Есть у меня одна статейка в тему. Если интересно, то могу скинуть.
Re[2]: Идентификация собеседника
От: tinytjan  
Дата: 27.10.07 08:40
Оценка:
Здравствуйте, jhng, Вы писали:

J>Есть у меня одна статейка в тему. Если интересно, то могу скинуть.


Интересно
-=(www.jZip.com)=-
Re[3]: Идентификация собеседника
От: Sergey Chadov Россия  
Дата: 28.10.07 13:35
Оценка:
Здравствуйте, tinytjan, Вы писали:


J>>Есть у меня одна статейка в тему. Если интересно, то могу скинуть.

T>Интересно

Так всем интересно...
--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>
Re[4]: Идентификация собеседника
От: jhng Россия  
Дата: 28.10.07 17:56
Оценка:
Здравствуйте, Sergey Chadov, Вы писали:

SC>Здравствуйте, tinytjan, Вы писали:



J>>>Есть у меня одна статейка в тему. Если интересно, то могу скинуть.

T>>Интересно

SC>Так всем интересно...


Дык что конкретно интересно. Очевидно, что надежная идентификация возможно только если собран достаочный объем информации, а не по одному единственному предложению.
Re[5]: Идентификация собеседника
От: Sergey Chadov Россия  
Дата: 29.10.07 08:09
Оценка:
Здравствуйте, jhng, Вы писали:

J>>>>Есть у меня одна статейка в тему. Если интересно, то могу скинуть.

T>>>Интересно

SC>>Так всем интересно...


J>Дык что конкретно интересно. Очевидно, что надежная идентификация возможно только если собран достаочный объем информации, а не по одному единственному предложению.


Мне конкретно интересны сами используемые методы.
Re[5]: Идентификация собеседника
От: tinytjan  
Дата: 29.10.07 08:19
Оценка:
Здравствуйте, jhng, Вы писали:

J>Дык что конкретно интересно. Очевидно, что надежная идентификация возможно только если собран достаочный объем информации, а не по одному единственному предложению.


Немного переформулирую:
Чем больше объем собранной информации, тем надежней идентификация.
На самом деле могут найтись такие перлы, которых можно идентифицировать и по одному предложению

ЗЫЖ Можно ли выкладывать вами присланное на всеобщее обозрение?
-=(www.jZip.com)=-
Re[6]: Идентификация собеседника
От: jhng Россия  
Дата: 29.10.07 20:00
Оценка:
Здравствуйте, tinytjan, Вы писали:

T>Здравствуйте, jhng, Вы писали:


J>>Дык что конкретно интересно. Очевидно, что надежная идентификация возможно только если собран достаочный объем информации, а не по одному единственному предложению.


T>Немного переформулирую:

T>Чем больше объем собранной информации, тем надежней идентификация.
T>На самом деле могут найтись такие перлы, которых можно идентифицировать и по одному предложению
С этим никто не спорит, но, согласитесь, в общем случае подход, основанный на идентификации по таким вот "перлам" не применим. А чистая статистика наверняка будет проигрывать полуэвристическим алгоритмам. Истина как обычно где-то по середине.
T>ЗЫЖ Можно ли выкладывать вами присланное на всеобщее обозрение?

Да пожалуйста. Статья, насколько мне известно, уже опубликована в журнале "Радиотехника и электроника".
Re: Идентификация собеседника
От: sammy_fr www.khvorov.com
Дата: 29.10.07 20:31
Оценка:
Здравствуйте, seas, Вы писали:

S>hi,


S>Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM?

S>Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?

S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.


S>Идеи?


Для определения авторства текста можно использовать марковские модели. Вкратце, составляется таблица вероятности появления цепочки из N-слов после определенного слова. Но, такая методика хорошо работает на больших объемах текстов, да и то не всегда дает гарантированный результат.
Regards,
Dmitry
khvorov.com
Re[6]: Идентификация собеседника
От: tinytjan  
Дата: 03.11.07 09:00
Оценка: 4 (1)
Здравствуйте, Sergey Chadov, Вы писали:

SC>Мне конкретно интересны сами используемые методы.


Прошу прощения за задержку.
Статью можно скачать тут
-=(www.jZip.com)=-
Re[7]: Идентификация собеседника
От: mefrill Россия  
Дата: 06.11.07 10:03
Оценка:
Здравствуйте, tinytjan, Вы писали:

T>Прошу прощения за задержку.

T>Статью можно скачать тут

А что там про классификацию авторов есть? Ну есть пример, который полагается на примитивный подсчет количества слов в предложениях. Вроде все. В поставленной задаче, главное -- это выделить чисто лингвистические критерии психологических характеристик автора. Кто-то поставил вторую задачу: определение авторства по тексту. Эти две задачи друг с другом связаны очень слабо, хотя есть идея попробовать использовать закономерности в текстах, которые позволяют отличать авторов друг от друга. В общем, про исходную задачу в статье вообще ничего нет. Вот что интересно, попробовать использовать описанный алгоритм для задачи классификации текстов по достаточно объемной онтологии. В статье онтология плоская, есть N непересекающихся областей и задача сводится к попытке соотнесения выборки к той или иной области. В реальных онтологиях задача сложнее. Там между элементами онтологий есть дополнительные отношения. Это прежде всего отношение иерархии, т.е. предок-потомок, а также различные перекрестные отношения между элементами разных уровней в иерархии. Адаптировать такой алгоритм так, чтобы он правильно работал на такой онтологии — нормальная задача для диссертации.
Re: Идентификация собеседника
От: mefrill Россия  
Дата: 06.11.07 10:21
Оценка:
Здравствуйте, seas, Вы писали:

S>hi,


S>Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM?

S>Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?

Мне кажется, для сообщений это вообще невозможно, тексты короткие, значит статистики мало. Кроме того, идентификация по стилю здесь невозможна, ибо стиль в сообщениях вырожден. Вообще, сама по себе задача неоднозначная. Вот скажем, классифицируем мы ужастик, стилистика там понятна, словарь тоже. Классифицировать текст как ужастик мы вполне можем. Но что мы сможем сказать о личности автора? Наверное немногое. Значит надо оценивать не жанровые тексты, а другие, что-нибудь эпистолярное наверное. Но там уж точно тексты коротки и статистики не собрать.

S>Интересует, возможность обучить систему и последующий слепой тест, или в непрерывном потоке данных, где определять вероятность принадлежности каждого высказывания, или опеределять вероятность принадлежности группы высказываний, где с большой вероятностью известно что все они написаны одним человеком.


Это делалось уже и есть работающие системы. Самый простой способ определить авторство текста -- это просто подсчитать словарь автора, частотное распределение слов в тексте. Словари достаточно индивидуальны и на этом критерии можно объемные тексты различать. Можно еще попробовать подсчитать условные вероятности появления слов в предложениях, если в них уже присутствуют те или иные слова. Еще метод -- использовать статистику стиля. Но это уже сложнее, надо синтаксический анализ текста делать, выделять обороты и т.п. Вообще, задача определения авторства схожа с задачей определения стиля текста. Последняя сейчас весьма актуальна, надо смотреть в сторону алгоритмов антиспама. Там спамовый стиль хорошо распознается чисто статистически.
Re[2]: Идентификация собеседника
От: SergH Россия  
Дата: 06.11.07 10:40
Оценка:
Здравствуйте, mefrill, Вы писали:

S>>Все знают идентификацию собеседника по голосу, а возможна-ли идентификация по сообщениям, например IM?

S>>Наверно можно составить какую-то статистику, "портрет", возможно определить ведующую модальность, субмодальность. Паттерн ошибок в написании слов, албанский и leet speech тоже наверно может дать картину. Возможно-ли это? Подскажите, в какую сторону копать? Что-то на стыке психологии и лингвистики, а еще и статистики — психолингивистика? Если кто знает — что почитать, какая наука может дать ответ, какой подраздел?

M>Мне кажется, для сообщений это вообще невозможно, тексты короткие, значит статистики мало. Кроме того, идентификация по стилю здесь невозможна, ибо стиль в сообщениях вырожден. Вообще, сама по себе задача неоднозначная. Вот скажем, классифицируем мы ужастик, стилистика там понятна, словарь тоже. Классифицировать текст как ужастик мы вполне можем. Но что мы сможем сказать о личности автора? Наверное немногое.


Портрет это то, что проявляется вне зависимости от жанра. Понятия не имею, как его получать, разве что про модальности могу сказать (если я понял то, что имелось ввиду).

По модальностям людей делят на визуалов, аудиалов и кинестетиков. Модальность определяет способ думать и способ говорить об этом. Например, кинестетик скажет "я _ощущаю_ ...", визуал — "я _вижу_ ..", аудиал... ну не знаю, но что-то в этом духе И думают они, вроде, тоже немного по-разному, но тут уж я совсем ничего сказать смогу — полный профан.

Это я к тому, что такие особенности проявляются в любом авторском тексте.
Делай что должно, и будь что будет
Re[8]: Идентификация собеседника
От: tinytjan  
Дата: 06.11.07 11:04
Оценка:
Здравствуйте, mefrill, Вы писали:

M>Здравствуйте, tinytjan, Вы писали:


T>>Прошу прощения за задержку.

T>>Статью можно скачать тут

M>А что там про классификацию авторов есть? Ну есть пример, который полагается на примитивный подсчет количества слов в предложениях. Вроде все. В поставленной задаче, главное -- это выделить чисто лингвистические критерии психологических характеристик автора. Кто-то поставил вторую задачу: определение авторства по тексту. Эти две задачи друг с другом связаны очень слабо, хотя есть идея попробовать использовать закономерности в текстах, которые позволяют отличать авторов друг от друга. В общем, про исходную задачу в статье вообще ничего нет. Вот что интересно, попробовать использовать описанный алгоритм для задачи классификации текстов по достаточно объемной онтологии. В статье онтология плоская, есть N непересекающихся областей и задача сводится к попытке соотнесения выборки к той или иной области. В реальных онтологиях задача сложнее. Там между элементами онтологий есть дополнительные отношения. Это прежде всего отношение иерархии, т.е. предок-потомок, а также различные перекрестные отношения между элементами разных уровней в иерархии. Адаптировать такой алгоритм так, чтобы он правильно работал на такой онтологии — нормальная задача для диссертации.


Честно говоря, не смотрел статью ибо абсолютно не было времени, просто выложил на всеобщее обозрение.
Обязательно посмотрю если время таки появится.
-=(www.jZip.com)=-
Re[8]: Идентификация собеседника
От: jhng Россия  
Дата: 06.11.07 18:41
Оценка:
Здравствуйте, mefrill, Вы писали:

M>А что там про классификацию авторов есть? Ну есть пример, который полагается на примитивный подсчет количества слов в предложениях. Вроде все. В поставленной задаче, главное -- это выделить чисто лингвистические критерии психологических характеристик автора. Кто-то поставил вторую задачу: определение авторства по тексту. Эти две задачи друг с другом связаны очень слабо, хотя есть идея попробовать использовать закономерности в текстах, которые позволяют отличать авторов друг от друга. В общем, про исходную задачу в статье вообще ничего нет. Вот что интересно, попробовать использовать описанный алгоритм для задачи классификации текстов по достаточно объемной онтологии. В статье онтология плоская, есть N непересекающихся областей и задача сводится к попытке соотнесения выборки к той или иной области. В реальных онтологиях задача сложнее. Там между элементами онтологий есть дополнительные отношения. Это прежде всего отношение иерархии, т.е. предок-потомок, а также различные перекрестные отношения между элементами разных уровней в иерархии. Адаптировать такой алгоритм так, чтобы он правильно работал на такой онтологии — нормальная задача для диссертации.


Так критерий вы можете сами задать какой захотите. Главное, чтоб имел численное выражение Собственно статья — это попытка приспособить существующий матаппарат к задаче классификации дикторов. Если можете предложить что-то более эффективное, то welcome! Алгоритм, предложенный в этой статье по сути отправная точка. А навернуть там можно много чего.

ЗЫ: статью писал не я.
Re[9]: Идентификация собеседника
От: mefrill Россия  
Дата: 07.11.07 05:49
Оценка: +1
Здравствуйте, jhng, Вы писали:

J>Так критерий вы можете сами задать какой захотите. Главное, чтоб имел численное выражение Собственно статья — это попытка приспособить существующий матаппарат к задаче классификации дикторов. Если можете предложить что-то более эффективное, то welcome! Алгоритм, предложенный в этой статье по сути отправная точка. А навернуть там можно много чего.


Так таких методов много, надо просто взять учебник по машинному обучению и посмотреть. Считается, что байесовская модель неплохо работает с классификацией текстов. Главная проблема состоит в том, чтобы выбрать адекватные критерии (признаки), по которым набирать статистику.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.