It&#39;s all in your mind

Чтобы проверить тему кэша тебе надо запустить какую-нибудь другую программу, не матлаб. которая не жрет память и кэш, но создает нагрузку на процессор, например, какой-нибудь простенький while на шелле. А затем запустить это свое сложение матриц и посмотреть сколько оно будет выполняться.

From:

Это я уже пробовал. Я запускаю другую программу на MatLab, которая что-то там своё делает с маленькими переменными (25% CPU), запускаю второй MatLab с этим скриптом (50% CPU) - 19 секунд. То есть, тормозит факт наличия двух этих "массивных" программ. Но как это подтверждает теорию. что тормозит именно память / кэш?

From:

Ты пробовал не это, я не говорил запускать вторую копию матлаба. Матлаб может иметь всякие локи (locks) и различные копии могут мешать друг другу. Так что ты проводил не очень чистый эксперимент. Но тебе повезло, очевидно, локи не мешают в данном случае или их там нет.
Тормозит не память, а кэш. Точнее, скорость памяти в данном случае не влияет, а размер кэша, вероятно, да.
Попробуй с матрицами меньшего размера, в 2 раза меньше, в 4 и т.п.

При работе с данными большого объема нужны другие алгоритмы. Простое разделение задачи на независимые части не поможет. Надо распараллеливать на более мелком уровне, например, распараллеливать сложение матриц. Вообще для матриц должен использоваться GPU, странно, что матлаб у тебя этого не делает (или делает?)

From:

Понял, попытаюсь. Хотя и непонятно, что потом делать с полученной информацией (вот нашёл я, что при таком-то размере матрицы всё снова масштабируется - и чего теперь с этим знанием делать?)

From:

При большем объеме данных решать задачу надо иначе.

Еще я подумал, что матлаб может как-то ограничивать собственное потребление памяти и пытаться выбрасывать матрицы или части их на диск, или пытаться паковать матрицы. Проверить тут просто, надо удвоить размер матрицы и сравнить потребление памяти.

Но это все развлечение. На самом деле уже очевидно, что алгоритм твоей задачи (в данном случае - сложение матриц) надо менять, если ты хочешь ускорить процесс. Например, порезать матрицы на более мелкие, сложить их параллельно в разных копиях матлаба, затем склеить, т.е. примитивный map-reduce.

From:

Это точно нет, он не пакует (умеет это делать, но надо отдельно просить это сделать), не свопит (аналогично), то есть матрица в два раза больше жрёт памяти в два раза больше.

From:

А вот про map-reduce интересно. Мне сам MathWorks что-то в этом духе предлагает, но я как-то не понимаю логики. Ну нарежу я на кусочки, на отдам я каждый кусочек отдельному процессу / процессору, что с того? Пропускная способность памяти от этого не увеличится? Как ограничивала она до этого скорость (которую можно выразить в перелопаченных мегабайтах), так и будет ограничивать, нет разве?

То есть (момент действительно для меня важный, поэтому лучше два раза его описать, чем один невнятно), если у меня скорость чтения, скажем, 100 единиц памяти в секунду, и именно эта величина ограничивает скорость моих расчётов, то, разрезав данные на 4 части, я получу 4 процесса, каждый из которых читает память со скоростью в 25 единиц в секунду, доводя память до предела скорости. Но в итоге у меня вычисления всё равно будут проходить со скоростью 100 единиц в секунду. Понимаешь? MathWorks не понял :-)

From:

дело же, вероятно, не в скорости доступа к памяти, а в размере кэша. надо ограничить размер данных, обрабатываемых каждым процессом в данный момент. не надо пихать всю матрицу в кэш, если за ту секунду, что процессу дана, он может только несколько строк обработать. надо добиться того, что в кэш влазят куски для всех параллельных процессов.

From:

В таком случае, тоже непонятно, зачем делать параллельные расчёты - нарезать, чтобы просто потом по кусочкам всё посчитать, и в сумме должно выйти быстрее?

Не уверен, что у нас это будет реально. Это с тупым примером всё работает, а у меня с сотню разных операций, которые используют разные принципы. Каждая операция - примерно в таком вот духе, но рассчитывать на разумное использование кэша сложно даже если я оставлю всего одну строчку в матрице...

From:

Судя по твоим результатам, если ты порежешь на кусочки (сможешь порезать у затраты на порезку/обединение результатов будут невилики), то ты уже должен выиграть даже на 1 процессоре. Плюс, откроешь дверь для паралелизации.

From:

Выиграть исключительно на том, что все (маленькие) данные будут в кэше? Нереально, либо всё переписывать на простые структуры...
А параллельные вычисления каким образом? Потому что у каждого ядра своё кэш?

From:

Именно так.
И очень часто это не реально.

From:

Сочувствую.

Это вечная проблема систем общего назначения, они более-менее справляются с простыми задачами и очень плохо со всякими специфичными.

From:

GPU MatLab теоретически умеет использовать, но не автоматически, ему нужно указывать, что посылать туда, а что нет. И там вполне себе так потеря времени на пересылку данных в и из GPU, то есть за каждым чихом не пообращаешься.

From:

Еще раз про локи. Если бы они были, процессор бы не потреблялся.
Отсутствие (должной) загрузки процессора - основной признак взаимных блокировок.

Каждый матлаб ест свои 25% - блокировок нет.

И вообще, считать надо на GPU. На своих 4 процессорах ты ускоришь в лучшем случае в 4 раза.
На GPU у тебя в худьшем случае несколько сотен процессоров.

From:

Разумно

From:

Мы просто оптимизируем сначала время разработчика (у нас нет разработчиков, разработчики - это мы, а мы плохие разработчики), а считать на GPU требует какой-то квалификации.

From:

Это правда. Писать код для GPU трудоемко получается. И поддержка/модификация потом очень тяжелая.

Мы попробивали. Потом стали писать скриптовый язык, который бы автоматически код для GPU генерировал. (в качестве рекламы)
Потом переписали на скриптах все что было сделано руками.
Наш компилятор сам решает, что в GPU отдавать считать, а что сосчитать снаружи.
Но предметная область специфицеская.
Матрицы мы только допиливаем.

Есть общие библиотеки для питона для GPU.

From: