Новый путь для развития процессоров - Философия программирования

Здравствуйте, bazis1, Вы писали:

B>Потому что это никому не нужно. Криптография, всякие SSE и виртуализация есть давно. А за пределами этого получается формула "ускорить среднюю производительность на 0.1% ценой увеличения стоимости на 10% и снижения надежности на 1%". Нафиг-нафиг.

Кеш в десятки гигабайт все изменит. Алгоритмы работают со структурами данных.

Вы привели только AES, а почему нет SHA256, ECDSA и пр? Это только криптография, но ведь при большом кеше можно добавить и поиск/сортировку. Можно сделать аппаратные видео-кодеки и пр.

Здравствуйте, Shmj, Вы писали:

S>Кеш в десятки гигабайт все изменит. Алгоритмы работают со структурами данных.
Ага, ускорит в 10 раз 0.01% программы.
S>Вы привели только AES, а почему нет SHA256, ECDSA и пр?
Потому что AES — это реальный bottleneck при работе с SSL и во всяких encrypted storage. Хэширование именно bottleneck-ом не является.
S>Это только криптография, но ведь при большом кеше можно добавить и поиск/сортировку.
Сильное ускорение поиска/сортировки актуально только для спецефических data-центров. И для них может быть дешевле просто купить больше железа, чем заморачиваться с аппаратной сортировкой и странными кэшами.
S>Можно сделать аппаратные видео-кодеки и пр.
Зачем? Какие задачи это ускорит? Ну будет у юзеров при воспроизведении видео не 1% CPU usage, а 0.1%. И? Реально от этого выиграют только какие-нибудь видеохостинги или студии, но опять же им проще докупить железа.

Здравствуйте, Sinix, Вы писали:

S>Принципиальных возможностей улучшить производительность в рамках того же транзисторного бюджета полно, но все они разбиваются о маленький нюанс: совместимость.

Не совместимость, а законы физики. Например один только отвод тепла мешает всунуть в кристалл сразу все подряд, как предлагает ТС.

S>Например, для предложенного варианта узкое место — затраты на синхронизацию. Чтоб обойти нужно полностью менять модель вычислений и переходить к акторам аля erlang/scala/orleans и, скорее всего, к stm (неплохой ликбез от автора Functors, Applicatives, And Monads In Pictures и grokking alghorithms). Это, в свою очередь, потребует отказа от фон-неймана и кучи неимоверной работы по переизобретению _всего_ что наработано за последние полвека для "традиционных" вычислительных машин.

Я сколько ни смотрел этот "неплохой ликбез", так и не понял:
1 как работает STM
2 почему переход от картинки-детям сразу к Хаскелю это неплохо

Здравствуйте, Shmj, Вы писали:

S>Причем такая архитектура не приведет к увеличению мощности процессора -- нужные модули можно включать и отключать по требованию.

S>Почему еще не пошли по этому пути?

Есть принципиально неустранимые проблемы
1 отвод тепла — _очень_ нелинейная проблема
2 количество выводов кристалл — еще одна сильно нелинейная проблема
3 время переключения транзистора ограничено свойствами полупроводника
4 уменьшение размеров транзистора ограничено размером атома

Грубо говоря, в единицу объема ты можешь напихать только фиксированое количество устройств. Это значит, что разные устройства все равно будут общаться по общей шине. Отсюда ясно, что эта шина и будет узким местом.

Собственно, отчасти прогресс и пошел по тому пути, что ты предложил, только более прозаично — процессорный кристал вбирает в себя самые разные устройства, только сортировок всяких там нет. Если устройство сортировки будет работать через некотороую шину, то нам абсолютно по барабану насколько быстро работает сортировщик — все равно предел будет равен пропускной способности шины, а это значит, что обычный код справится не хуже.

I>Грубо говоря, в единицу объема ты можешь напихать только фиксированое количество устройств. Это значит, что разные устройства все равно будут общаться по общей шине. Отсюда ясно, что эта шина и будет узким местом.

Замечание. Общих шин уже нет. В грубом приближении матрица.

Здравствуйте, Ikemefula, Вы писали:

S>>Принципиальных возможностей улучшить производительность в рамках того же транзисторного бюджета полно, но все они разбиваются о маленький нюанс: совместимость.
I>Не совместимость, а законы физики. Например один только отвод тепла мешает всунуть в кристалл сразу все подряд, как предлагает ТС.
Микроканалы, как вариант. Теоретический запас емнип до киловатта тепловой мощности с см².

I>Я сколько ни смотрел этот "неплохой ликбез", так и не понял:
I>1 как работает STM
Если интересуют кишки, то проще всего начать с вот этой пары презентаций
https://www.cs.princeton.edu/courses/archive/fall10/cos597C/docs/TM-Impl-1.pptx +
https://www.cs.princeton.edu/courses/archive/fall10/cos597C/docs/TransactionalMemoryLectureII.pptx
, дальше только гугль по конкретным вопросам.

I>2 почему переход от картинки-детям сразу к Хаскелю это неплохо
Потому что все остальные ещё хуже.

Здравствуйте, gardener, Вы писали:

I>>Грубо говоря, в единицу объема ты можешь напихать только фиксированое количество устройств. Это значит, что разные устройства все равно будут общаться по общей шине. Отсюда ясно, что эта шина и будет узким местом.

G>Замечание. Общих шин уже нет. В грубом приближении матрица.

Матрицу тоже не получится сделать произвольной мощности, а то бы твой комп состоял из одной лишь видеокарты

Здравствуйте, Shmj, Вы писали:

Pzz>>Потому, что чем больше транзисторов, тем больше вероятность, что какой-то из них получится бракованным. Если структора слишком сложная, выход годных кристаллов будет слишком маленький. А поскольку в цену годных заложена и цена негодных, годные будут стоить слишком дорого.

S>Дык... Можно чуть увеличить размер транзистора, не пытаться сделать самыми маленькими. Ну если кристалл будет 100*100*5 мм -- разве это много? В любой ноутбук влезет.

Поздравляю, ты изобрёл микроконтроллер.

Здравствуйте, Ikemefula, Вы писали:

I>3 время переключения транзистора ограничено свойствами полупроводника

это не особо страшная проблема , есть уже транзюки на 1 ТГц
проблема в сложности проца — а именно в том скока транзюков в цепях соединено последовательно

а еще уже говорили, но на частоте всего лишь 1 ГГц импульс тока проходит всего лишь 30 см

а на 10 ГГц — 3 см — вот это уже печаль реальная

S>В общем, квадратик/кристалл процессора очень маленький. А корпус большой. Можно увеличить кристалл раз в 1000 минимум а если сделать в несколько слоев -- то в несколько миллионов раз.
Удачи сделать фотолитографией многоэтажные транзисторы.

S>Увеличить количество транзисторов до триллиона и более.
Выход годных при нынешнем уровне технологий будет стремиться к нулю, а себестоимость таки рабочих экземпляров — к бесконечности.

S>Зачем? А встроить прямо в процессор десятки гигабайт кэша + реализовать модули для конкретных алгоритмов. К примеру реализовать аппаратно все алгоритмы криптографии, поиска, сортировки и пр.
Аппаратная криптография уже есть, где требуется. Аппаратная сортировка/поиск не нужны в системах общего назначения так как предикаты нужны софтовые, а аппаратная сортировка с софтовым предикатом будет не сильно быстрее своего полностью софтового аналога. Для всех остальных случаев давно используют ПЛИС.

S>Причем такая архитектура не приведет к увеличению мощности процессора -- нужные модули можно включать и отключать по требованию.
Чтото я не видел чтоб хотябы модули памяти включали/выключали в ноутбуках. А ведь могли бы этим сэкономить пару-тройку ватт в простое.

S>Почему еще не пошли по этому пути?
Как минимум некоторые распберри сделаны на SoC с памятью на борту.

Здравствуйте, ononim, Вы писали:

S>>Увеличить количество транзисторов до триллиона и более.
O>Выход годных при нынешнем уровне технологий будет стремиться к нулю, а себестоимость таки рабочих экземпляров — к бесконечности.

Значит есть куда расти

То есть еще не все возможности для роста исчерпаны.

S>>Зачем? А встроить прямо в процессор десятки гигабайт кэша + реализовать модули для конкретных алгоритмов. К примеру реализовать аппаратно все алгоритмы криптографии, поиска, сортировки и пр.
O>Аппаратная криптография уже есть, где требуется. Аппаратная сортировка/поиск не нужны в системах общего назначения так как предикаты нужны софтовые, а аппаратная сортировка с софтовым предикатом будет не сильно быстрее своего полностью софтового аналога. Для всех остальных случаев давно используют ПЛИС.

Скорее всего проблема в том что пока технически не возможно реализовать то что я хочу.

А вот алгоритмы найдутся. Можно и нейронные сети напихать в кристалл.

S>>Причем такая архитектура не приведет к увеличению мощности процессора -- нужные модули можно включать и отключать по требованию.
O>Чтото я не видел чтоб хотябы модули памяти включали/выключали в ноутбуках. А ведь могли бы этим сэкономить пару-тройку ватт в простое.

А могли бы сделать. Ведь технически это возможно.

Здравствуйте, Слава, Вы писали:

С>Кто этими алгоритмами будет пользоваться из существующего софта?

Примитивы AES-NI, например, уже сейчас используются чуть менее, чем всеми

... << RSDN@Home 1.0.0 alpha 5 rev. 0>>

Здравствуйте, Shmj, Вы писали:

S>В общем, квадратик/кристалл процессора очень маленький. А корпус большой. Можно увеличить кристалл раз в 1000 минимум а если сделать в несколько слоев -- то в несколько миллионов раз. Увеличить количество транзисторов до триллиона и более.

Представим команду программистов из 8 человек, которым дали сделать проект за 3 года. А вот если нанять 8000 человек, то они сделают проект за 1 день.

	От:	Shmj
	Дата:	28.10.16 20:52
	Оценка:

	От:	bazis1
	Дата:	28.10.16 21:27
	Оценка:

От:	Ikemefula	http://blogs.rsdn.org/ikemefula
Дата:	31.10.16 20:03
Оценка:

От:	Ikemefula	http://blogs.rsdn.org/ikemefula
Дата:	31.10.16 20:18
Оценка:	+1

	От:	gardener
	Дата:	01.11.16 03:02
	Оценка:

	От:	Kingofastellarwar
	Дата:	01.11.16 14:12
	Оценка:

От:	kochetkov.vladimir	https://kochetkov.github.io
Дата:	24.11.16 23:23
Оценка:

От:	Andrew.W Worobow	https://github.com/Worobow
Дата:	01.12.16 11:21
Оценка:

	От:	ononim
	Дата:	06.11.16 22:19
	Оценка:

	От:	mgu
	Дата:	25.11.16 00:49
	Оценка: