Здравствуйте, andyp, Вы писали:
A>Считаю, это одно из интереснейших междисциплинарных исследований последних лет. Здесь есть все — археология, физика, машинное обучение...
Интересен сам подход к решению задачи с помощью привлечения коммьюинити. Сдается, что такой подход, показавший свою эффективность в частности в мире open source, будет все больше доминировать в решении сложных и междцисциплинарных задач.
Здравствуйте, MaximVK, Вы писали:
MVK>Интересен сам подход к решению задачи с помощью привлечения коммьюинити. Сдается, что такой подход, показавший свою эффективность в частности в мире open source, будет все больше доминировать в решении сложных и междцисциплинарных задач.
Да там все интересно имхо. Сам этот virtual unrolling свитков — уже очень круто. Прям передний край машинного обучения и CS. Эта задача с 80-90х еще и достаточно продвинутые физические методы использует.
Мне еще очень интересно, что же они смогут прочитать. Все-таки, единственная библиотека, оставшаяся именно с античного времени.
PS В этой теме идея широкой коллаборации ученых тоже уже с 90х. Смотрел фильм про достаточно старые исследования по той же теме. Там читали уже раскрученное. Старый итальянец (он умер уже) очень гордился широкой коллаборацией. Так что уже традиция.
Здравствуйте, andyp, Вы писали:
A>Считаю, это одно из интереснейших междисциплинарных исследований последних лет. Здесь есть все — археология, физика, машинное обучение...
Археология с физикой дружат еще со времен радиоуглеродного метода, так что это не новость. А что касается машинного обучения, удачи им доказывать, что тот текст, который нагаллюцинирует AI действительно написан на свитках. Если они это сделают, можно будет с уверенностью говорить о "прямом извлечении смыслов из природы минуя посредство науки" которое предсказал Переслегин.
Здравствуйте, Miroff, Вы писали: M>Археология с физикой дружат еще со времен радиоуглеродного метода, так что это не новость. А что касается машинного обучения, удачи им доказывать, что тот текст, который нагаллюцинирует AI действительно написан на свитках.
А давайте посмотрим (коммерческая версия ChatGPT 4) — я от балды вбил пару "свитков" на латинице.
Протокол чата
Ты — дешифровщик древних рукописей на неизвестном языке в команде археологов. Мы нашли две рукописи. Перевод одной мы знаем.
Оригинал первой рукописи:
"vjio ree sdfjfsdh fxr rgr njfisdfd fessd"
Мы знаем перевод:
"Ибо было сказано упокойся с миром"
Оригинал второй рукописи:
"fjhgj jhifg xcvxx cffefre rere rrere grggtr"
Сделай перевод, исходя из знаний о переводе первой рукописи
Чтобы перевести вторую рукопись, нужно установить связь между языком оригинала и русским языком на основе первой рукописи. Ваша первая рукопись:
Оригинал: "vjio ree sdfjfsdh fxr rgr njfisdfd fessd"
Перевод: "Ибо было сказано упокойся с миром"
Попытаюсь найти соответствие между фрагментами текста оригинала и перевода, чтобы использовать это для дешифровки второй рукописи.
Вторая рукопись: "fjhgj jhifg xcvxx cffefre rere rrere grggtr"
Рассмотрим структуру и возможное соответствие элементов. Однако, учитывая крайнюю краткость первой рукописи и её перевода, а также отсутствие явных соответствий между фрагментами текста (например, повторяющимися элементами или структурными подсказками), точный перевод будет крайне труден, если вообще возможен. Без дополнительных данных о языке рукописей или более обширных текстов для анализа, любой предполагаемый перевод второй рукописи будет чрезвычайно предположительным и ненадежным.
Исходя из этого, лучшим подходом было бы собрать больше информации о языке этих рукописей, найти другие документы на этом же языке или получить помощь от специалистов в области лингвистики, специализирующихся на древних и неизвестных языках.
И все же сделай попытку
Понимаю ваш интерес к дешифровке второй рукописи, но учитывая ограниченность информации из первой, перевод будет сильно гипотетическим. Давайте попробуем.
Исходя из структуры первой рукописи и её перевода, мы можем попытаться применить аналогичные методы к второй:
Возможно, каждое слово в оригинале соответствует слову в переводе. Например, если "vjio ree" переводится как "Ибо было", то "fjhgj jhifg" во второй рукописи может иметь аналогичную структуру.
Может существовать соответствие между длиной слов в оригинале и переводе. Например, более короткие слова в оригинале соответствуют коротким словам в переводе.
Исходя из этого, давайте попробуем сделать предполагаемый перевод второй рукописи, придерживаясь принципа структурного соответствия:
Вторая рукопись: "fjhgj jhifg xcvxx cffefre rere rrere grggtr"
Предполагаемый перевод:
"Также [неизвестно] под [неизвестно] в [неизвестно] [неизвестно] [неизвестно] [неизвестно]"
Это всего лишь гипотетический перевод, основанный на очень ограниченных данных. Без более детального изучения языка и контекста этих рукописей любые попытки перевода будут весьма приблизительными и спекулятивными.
Какой вывод можно сделать? Однозначно галлюцинирует: слов "также", "под", "в" не было в "оригинале", откуда он эти слова взял — великая шаманская загадка с большим бубном. Explainable AI тут и не пахнет, хотя поначалу вроде как намечалось что бот реально займется расшифровкой и будет по ходу дела ещё и объяснять ход мысли, но потом он резко и позорно само-сливается.
Здравствуйте, Miroff, Вы писали:
M>Археология с физикой дружат еще со времен радиоуглеродного метода, так что это не новость. А что касается машинного обучения, удачи им доказывать, что тот текст, который нагаллюцинирует AI действительно написан на свитках. Если они это сделают, можно будет с уверенностью говорить о "прямом извлечении смыслов из природы минуя посредство науки" которое предсказал Переслегин.
Там нейросеть только пятна чернил ищет, на сколько понял.
Здравствуйте, andyp, Вы писали:
A>Там нейросеть только пятна чернил ищет, на сколько понял.
Не просто пятна, а пятна похожие на буквы, которые не видны простому глазу, то есть галлюцинирует. Это примерно та же задача что и superresolution: берем сверточную нейросеть и учим ее по изображению низкого разрешения строить изображение высокого разрешения. Такие модели очень просто тренировать, поэтому все их везде пихают. Достаточно большие и хорошо обученные модели даже выдают правдоподобный результат. Вот только в реальности во входных данных нет информации о тех мелких деталях, которые дорисовала модель. Чем сильнее мы пытаемся поднять разрешение, тем чаще мы будем видеть галлюцинации вместо реконструкции.
Здравствуйте, Miroff, Вы писали:
M>Не просто пятна, а пятна похожие на буквы, которые не видны простому глазу, то есть галлюцинирует. Это примерно та же задача что и superresolution: берем сверточную нейросеть и учим ее по изображению низкого разрешения строить изображение высокого разрешения. Такие модели очень просто тренировать, поэтому все их везде пихают. Достаточно большие и хорошо обученные модели даже выдают правдоподобный результат. Вот только в реальности во входных данных нет информации о тех мелких деталях, которые дорисовала модель. Чем сильнее мы пытаемся поднять разрешение, тем чаще мы будем видеть галлюцинации вместо реконструкции.
Вот только человек точно также действует и галлюцинирует. Так что результат этих сеток вполне приемлем для людей.
Напомню, что реальность людей в массе своей мало интересует.
Здравствуйте, Vzhyk2, Вы писали:
V>Вот только человек точно также действует и галлюцинирует. Так что результат этих сеток вполне приемлем для людей. V>Напомню, что реальность людей в массе своей мало интересует.
Мы все же тут про ученых говорим, а не про людей в массе. Ученые занимаются наукой именно потому, что их интересует реальность. И тут либо ученым придется научиться аргументированно объяснять выводы AI, либо принять что результат, выданный AI, это и есть реальность и превратиться в очередных астрологов, гадающих на AI.
Здравствуйте, Miroff, Вы писали:
M>А что касается машинного обучения, удачи им доказывать, что тот текст, который нагаллюцинирует AI действительно написан на свитках.
Обычно строят несколько моделей и если результаты этих моделей сходятся, то с высокой степенью достоверности можно говорить о корректности моделей. Так как галлюционируют они все по разному.
Здравствуйте, Miroff, Вы писали:
M>Археология с физикой дружат еще со времен радиоуглеродного метода, так что это не новость. А что касается машинного обучения, удачи им доказывать, что тот текст, который нагаллюцинирует AI действительно написан на свитках. Если они это сделают, можно будет с уверенностью говорить о "прямом извлечении смыслов из природы минуя посредство науки" которое предсказал Переслегин.
Твой скепсис был бы разумен, если бы свитки были написаны на неизвестном языке. Но это же латынь! Распознанные легко подвергается семантической верификации.
Насколько я понял, у них нейросеть не end-to-end image2text, а отдельно сегментационная сеть для чернил. А потом классификационная для символов. так как каждый символ классифицируется независимо друг от друга, то можно заключить, что результирующие слова не являются целиком галлюцинацией. тепепь скажи, с какой вероятностью можно из случайных символов известного алфавита получить существующее слово? А с какой вероятностью соседние слова окажутся связанными друг с другом по смыслу?
Чисто из интереса попробуй провести вычисления, оцени научность их работы.
Здравствуйте, andyp, Вы писали:
A>Мне еще очень интересно, что же они смогут прочитать. Все-таки, единственная библиотека, оставшаяся именно с античного времени.
А если именно по римской империи, то у есть нас даже городские архивы частично сохранившиеся с того времени.
Просто археологам "всегда мало источников".
Это ж на глине. И гораздо более древнее. Другой период вообще. Но да, это именно библиотека. Так-то от римлян тоже много надписей на камне и штукатурке осталось, но они специфичные очень.
C>А если именно по римской империи, то у есть нас даже городские архивы частично сохранившиеся с того времени. C>Просто археологам "всегда мало источников".
Очень много чего дошло в поздних списках. Городские архивы — полезные, но специфичные источники. Так что да, реально мало имхо. Источники, они очень нужны. Дополняют материальную культуру.
Здравствуйте, Miroff, Вы писали:
M>Здравствуйте, andyp, Вы писали:
A>>Там нейросеть только пятна чернил ищет, на сколько понял.
M>Не просто пятна, а пятна похожие на буквы, которые не видны простому глазу, то есть галлюцинирует.
Буквы там складываются из пятен, а кроме того, насколько понял, таки видны и сетка получается, что просто подсвечивает на что обращать внимание. Исследователи специально выявляют не слова и не буквы, а только пятна с признаками что там чего-то написано было. Даже если эти пятна галлюцинации, то вряд ли сетка смогла бы еще и в древнегреческий текст их сложить.
Здравствуйте, andyp, Вы писали:
A>Одна поправка — язык там греческий. Ну вот так вот. Греческие тексты на римской вилле.
Ничего удивительного, (древне)греческий язык, который еще назывался "койнэ" (всеобщий, единый) был более распространен, чем латинский. На койне говорили и писали книги на всей территории Империи, а на латинском практически только в будущей Западной Европе и то не всей.
M>Ничего удивительного, (древне)греческий язык, который еще назывался "койнэ" (всеобщий, единый) был более распространен, чем латинский. На койне говорили и писали книги на всей территории Империи, а на латинском практически только в будущей Западной Европе и то не всей.
Здравствуйте, andyp, Вы писали:
A>Здравствуйте, Michael7, Вы писали:
M>>Ничего удивительного, (древне)греческий язык, который еще назывался "койнэ" (всеобщий, единый) был более распространен, чем латинский. На койне говорили и писали книги на всей территории Империи, а на латинском практически только в будущей Западной Европе и то не всей.
A>Именно так. Тяжкое наследие эллинизма