Shared and distributed memory архитектурлары

Распределеннаяобщаяпамять (DSM - Distributed Shared Memory)

Традиционно распределенные вычисления базируются на модели передачи сообщений, в которой данные передаются от процессора к процессору в виде сообщений. Удаленный вызов процедур фактически является той же самой моделью (или очень близкой). DSM - виртуальное адресное пространство, разделяемое всеми узлами (процессорами) распределенной системы. Программы получают доступ к данным в DSM примерно так же, как они работают с данными в виртуальной памяти традиционных ЭВМ. В системах с DSM данные перемещаются между локальными памятями разных компьютеров аналогично тому, как они перемещаются между оперативной и внешней памятью одного компьютера. Конфигурация — с распределенной разделяемой памятью, представляет собой вариант распределенной памяти. Здесь все узлы, состоящие из одного или нескольких процессоров, подключенных по схеме SMP, используют общее адресное пространство. Отличие этой конфигурации от машины с распределенной памятью в том, что здесь любой процессор может обратиться к любому участку памяти. Однако, время обращения к разным участкам памяти для каждого процессора различно в зависимости от того, где участок физически расположен в кластере. По этой причине такие конфигурации еще называют машинами с неоднородным доступом к памяти NUMA (non-uniformmemoryaccess).

 

 

MPI_White(), MPI_Probeфункциялары.

Воспользоваться результатом неблокирующей коммуникационной операции или повторно использовать ее параметры можно только после ее полного завершения. Функция ожидания завершения неблокирующей операции MPI_Wait

intMPI_Wait(MPI_Request *request, MPI_Status *status)

request – “запрос обмена”; status – атрибуты сообщения. Это нелокальная блокирующая операция. Возврат происходит после завершения операции, связанной с запросом request. В параметре status возвращается информация о законченной операции.

Определить параметры полученного сообщения без его чтения можно с помощью функции MPI_Probe.

intMPI_Probe(int source, int tag, MPI_Commcomm, MPI_Status *status)

source – номер процесса-отправителя; tag – идентификатор сообщения; comm – коммуникатор; status – атрибуты опрошенного сообщения. Подпрограмма MPI_Probe выполняется с блокировкой, поэтому завершится она лишь тогда, когда сообщение с подходящим идентификатором и номером процесса-отправителя будет доступно для

получения. Атрибуты этого сообщения возвращаются в переменной status. Следующий за MPI_Probe вызов MPI_Recv с теми же атрибутами сообщения (номером процесса-отправителя, идентификатором сообщения и коммуникатором) поместит в буфер приема именно то сообщение, наличие которого было опрошено подпрограммой MPI_Probe.

 

3.Санды полиномдылыққа тексеру параллельді программасын жазыңыз.

 

 

Сурак

1.Процесс дегеніміз не? Ағын дегеніміз не? Прцесс пен ағын айырмашылығы.

Программы MPI состоят из автономных процессов, выполняющих собственный код, написанный в стиле MIMD. Коды, выполняемые каждым процессом, не обязательно идентичны. Процессы взаимодействуют через вызовы коммуникационных примитивов MPI. Обычно каждый процесс выполняется в его собственном адресном пространстве, хотя возможны реализации MPI с разделяемой памятью. Этот документ описывает поведение параллельной программы в предположении, что для обмена используются только вызовы MPI. MPI не описывает модель исполнения для каждого процесса. Процесс может быть последовательным или многопоточным. В последнем случае необходимо обеспечить ``потоковую безопасность'' (``thread-safe''). Желаемое взаимодействие MPI с потоками должно состоять в том, чтобы разрешить конкурирующим потокам выполнять вызовы MPI, и вызовы должны быть реентерабельными; блокирующие вызовы MPI должны блокировать только вызываемый поток, не препятствуя планированию другого потока. MPI не обеспечивает механизмы для начального распределения процессов по физическим процессорам. Ожидается, что эти механизмы для этапа загрузки или исполнения обеспечат поставщики. Такие механизмы позволят описывать начальное число требуемых процессов; код, который должен исполняться каждым начальным процессом; размещение процессов по процессорам. Однако, существующее определение MPI не обеспечивает динамического создания или удаления процессов во время исполнения программ (общее число процессов фиксировано), хотя такое расширение предусматривается. Наконец, процесс всегда идентифицируется согласно его относительному номеру в группе, т. е. последовательными целыми числами в диапазоне 0, ..., groupsize-1.

2.MPI-да ағындардысинхронизациялау. MPI_Barrier() функциясы.

В операциях коллективного взаимодействия процессов участвуют все процессы коммуникатора. Как и для блокирующих процедур, возврат означает то, что разрешен свободный доступ к буферу приема или посылки. Сообщения, вызванные коллективными операциями, не пересекутся с другими сообщениями.

Нельзя рассчитывать на синхронизацию процессов с помощью коллективных операций. Если какой-то процесс завершил свое участие в коллективной операции, то это не означает ни того, что данная операция завершена другими процессами коммуникатора, ни даже того, что она ими начата (если это возможно по смыслу операции) =>intMPI_Barrier(MPI_Commcomm) - работа процессов блокируется до тех пор, пока все оставшиеся процессы коммуникатора comm не выполнят эту процедуру. Все процессы должны вызвать MPI_Barrier, хотя реально исполненные вызовы различными процессами коммуникатора могут быть расположены в разных местах программы. Синхронизация с помощью барьеров используется, например, для завершения всеми процессами некоторого этапа решения задачи, результаты которого будут использоваться на следующем этапе. Использование барьера гарантирует, что ни один из процессов не приступит раньше времени к выполнению следующего этапа, пока результат работы предыдущего не будет окончательно сформирован. Неявную синхронизацию процессов выполняет любая коллективная функция.

3. 3 өлшемді Лаплас теңдеуін 1 –өлшемді тәсілімен программалау.

MPI_CommGridComm;

intsize,rank,i;

intix,iy,iz;

intx,y,z,X=10,Y=10,Z=10;

MPI_Init(&argc,&argv);

MPI_Comm_size(MPI_COMM_WORLD,&size);

MPI_Comm_rank(MPI_COMM_WORLD,&rank);

MPI_Status status;

y=Y/size+2;

double matrix[X][y][Z],vecUP[X][Z],vecDOWN[X][Z];

if(rank==0)

{

for(ix=1;ix<X-1;ix++)

{

for(iz=1;iz<Z-1;iz++)

{

matrix[ix][1][iz]=1;

}

}

for(ix=1;ix<X-1;ix++)

{

for(iy=2;iy<y-1;iy++)

{

for(iz=1;iz<Z-1;iz++)

{

matrix[ix][iy][iz]=0;

}

}

}

}else

{

for(ix=1;ix<X-1;ix++)

{

for(iy=1;iy<y-1;iy++)

{

for(iz=1;iz<Z-1;iz++)

{

matrix[ix][iy][iz]=0;

}

}

}

}

for(inti=0;i<10;i++)

{

if(rank<size-1)

{

for(ix=0;ix<X;ix++)

{

for(iz=0;iz<Z;iz++)

{

vecUP[ix][iz]=matrix[ix][y-2][iz];

}

}

MPI_Send(vecUP,X*Z,MPI_FLOAT,rank+1,rank,MPI_COMM_WORLD);

MPI_Recv(vecUP,X*Z,MPI_FLOAT,rank+1,rank+1,MPI_COMM_WORLD,&status);

for(ix=0;ix<X;ix++)

{

for(iz=0;iz<Z;iz++)

{

matrix[ix][y-1][iz]=vecUP[ix][iz];

}

}

}

if(rank>0)

{

MPI_Recv(vecDOWN,X*Z,MPI_FLOAT,rank-1,rank-1,MPI_COMM_WORLD,&status);

for(ix=0;ix<X;ix++)

{

for(iz=0;iz<Z;iz++)

{

matrix0[ix][0][iz]=vecDOWN[ix][iz];

vecDOWN[ix][iz]=matrix[ix][1][iz];

}

}

MPI_Send(vecDOWN,X*Z,MPI_FLOAT,rank-1,rank,MPI_COMM_WORLD);

}

for(iz=1;iz<Z-1;iz++)

{

for(iy=1;iy<y-1;iy++)

{

if(rank==0&&iy==1){continue;}

if(rank==size-1&&iy==y-2){break;}

for(ix=1;ix<X-1;ix++)

{

matrix[ix][iy][iz]=matrix[ix+1][iy][iz]+matrix[ix-1][iy][iz]+matrix[ix][iy+1][iz];

matrix[ix][iy][iz]+=matrix[ix][iy-1][iz]+matrix[ix][iy][iz+1]+matrix[ix][iy][iz-1];

matrix[ix][iy][iz]/=6;

}

}

}

}while(stop==0);

MPI_Finalize();

return 0;

}

Сурак

1.Суперскаляр және векторлы процессорлар.

Скалярный процессор — это простейший класс микропроцессоров. Скалярный процессор обрабатывает один элемент данных за одну инструкцию (SISD, SingleInstructionSingleData), типичными элементами данных могут быть целые или числа с плавающей запятой. В векторных процессорах (SIMD, SingleInstructionMultipleData), в отличие от скалярных, одна инструкция работает с несколькими элементами данных.

Суперскалярность — архитектура вычислительного ядра, использующая несколько декодеров команд, которые могут загружать работой множество исполнительных блоков. Планирование исполнения потока команд является динамическим и осуществляется самим вычислительным ядром.

Если в процессе работы команды, обрабатываемые конвейером, не противоречат друг другу, и одна не зависит от результата другой, то такое устройство (ядро) может осуществить параллельное выполнение команд. В суперскалярных системах решение о запуске инструкции на исполнение принимает сам вычислительный модуль, что требует много ресурсов.

Векторный процессор — это процессор, в котором операндами некоторых команд могут выступать упорядоченные массивы данных — векторы. Отличается от скалярных процессоров, которые могут работать только с одним операндом в единицу времени. Абсолютное большинство процессоровявляются скалярными или близкими к ним.

2.Виртуалды топология. Декарт және граф топологиясы. Қандай жағдайларда оларды қолдану керек. Декарт топологиясын құру кезеңдері.

В MPI топология представляет собой механизм для того, чтобы связать с процессами, принадлежащими группе, различные схемы адресации. Топология MPI - виртуальная, т. е. может не существовать никакого простого отношения между структурой процессов, определенной виртуальной топологией и фактической физической структурой параллельной машины. Известны два основных типа виртуальной топологии, которая может быть создана MPI, - декартова топология, или топология сетки, и топология графа. Первый тип является подмножеством второго. В дек. топ. множ-во процессов предст-ся в виде прям. решетки, а для указ. процессов исп-ся дек. сист. коорд. Для созд-я :int MPI_Cart_create(MPI_Comm oldcomm, int ndims, int *dims, int *periods, int reorder, MPI_Comm *cartcomm), где: oldcomm - исх. комм; ndims - разм. дек. решетки, dims - массив длины ndims, задает кол-во процессов каждом изм. решетки, periods - массив длины ndims, определяет, явл-ся ли решетка периодич. вдоль каждого изм; reorder - параметр допустимости изм. нум. процессов, cartcomm – созд-е. комм. с дек. топ. процесса. В топологии в виде графа - вершины есть процессы системы, а дуги соответствуют имеющимся каналам связи. Парные операции передачи данных могут быть выполнены между любыми процессами комм; в коллект. операции приним. участие все процессы комм. Следовательно, логическая топ. линий связи между процессами в парал. программе имеет структуру полного графа.

3.2 өлшемді Лаплас теңдеуін 1-өлшемді декомпозиция тәсілімен программалау.

constint N=100;

float P[N][N],

h=0.01, //шаг сетки

eps=0.01, //точность

max, //норма

**p, //текущая итерация

**pp, //предыдущая итерация

a[N],b[N]; //вспомогательные векторы

inti,j,

c, //кол-во строк матрицы на каждом процессоре

stop = 1; //условие заверщения цикла

intrank,size;

MPI_Init(&argc,&argv);

MPI_Status status;

MPI_Comm_rank(MPI_COMM_WORLD,&rank);

MPI_Comm_size(MPI_COMM_WORLD,&size);

if(rank<N%size)

{

c=N/size+1;

}else

{

c=N/size;

}

p=newfloat*[c];

pp=newfloat*[c];

for(i=0;i<c;i++)

{

p[i]=newfloat[N];

pp[i]=newfloat[N];

p[i][0]=1;

pp[i][0]=1;

for(int j=1;j<N;j++)

{

p[i][j]=0;

pp[i][j]=0;

}

}

if(rank==0)

{

do

{

if(size>1)

{

MPI_Send(&p[c-1][0],N,MPI_FLOAT,rank+1,

0,MPI_COMM_WORLD);

MPI_Recv(a,N,MPI_FLOAT,rank+1,size,

MPI_COMM_WORLD, &status);

}

max=0.0;

for(i=1;i<c-1;i++)

{

for(j=1;j<N-1;j++)

{

p[i][j]=(pp[i+1][j]+pp[i-1][j]+pp[i][j+1]+pp[i][j-1])/4;

if(max<fabs(p[i][j]-pp[i][j]))

{

max=fabs(p[i][j]-pp[i][j]);

}

}

}

if(size>1)

{

for(j=1;j<N-1;j++)

{

p[c-1][j]=(pp[c-2][j]+a[j]+pp[c-1][j+1]+pp[c-1][j-1])/4;

if(max<fabs(p[c-1][j]-pp[c-1][j]))

{

max=fabs(p[c-1][j]-pp[c-1][j]);

}

}

floatmaxx;

for(i=1;i<size;i++)

{

MPI_Recv(&maxx,1,MPI_FLOAT,i,2*size,MPI_COMM_WORLD,&status);

if(maxx>max)

{

max=maxx;

}

}

}

if(max<=eps)

{

stop=0;

}

if(size>1)

{

for(i=1;i<size;i++)

{

MPI_Send(&stop,1,MPI_INT,i,3*size,MPI_COMM_WORLD);

}

}

for(i=0;i<c;i++)

{

for(j=0;j<N;j++)

{

pp[i][j]=p[i][j];

}

}

}while(stop==1);

for(i=0;i<c;i++)

{

for(int j=0;j<N;j++)

{

P[i][j]=p[i][j];

}

}

if(size>1)

{

intjj=c-1;

for(i=1;i<size;i++)

{

MPI_Recv(&c,1,MPI_INT,i,4*size,MPI_COMM_WORLD,&status);

for(j=0;j<c;j++)

{

jj++;

MPI_Recv(&P[jj][0],100,MPI_FLOAT,i,5*size,MPI_COMM_WORLD,&status);

}

}

}

ofstream out("result.txt");

for(i=0;i<N;i++)

{

for(int j=0;j<N;j++)

{

out<<P[i][j]<<'\t'; //вывожу в результаты в фаил

}

out<<'\n';

}

}

if(rank==size-1&&size>1)

{

do

{

MPI_Recv(b,N,MPI_FLOAT,rank-1,0,MPI_COMM_WORLD,&status);

MPI_Send(&p[0][0],N,MPI_FLOAT,rank-1,size,MPI_COMM_WORLD);

max=0;

for(i=1;i<c-1;i++)

{

for(j=1;j<N-1;j++)

{

p[i][j]=(pp[i+1][j]+pp[i-1][j]+pp[i][j+1]+pp[i][j-1])/4;

if(max<fabs(pp[i][j]-p[i][j]))

{

max=fabs(pp[i][j]-p[i][j]);

}

}

}

for(j=1;j<N-1;j++)

{

p[0][j]=(pp[1][j]+b[j]+pp[0][j+1]+pp[0][j-1])/4;

if(max<fabs(pp[0][j]-p[0][j]))

{

max=fabs(pp[0][j]-p[0][j]);

}

}

MPI_Send(&max,1,MPI_FLOAT,0,2*size,MPI_COMM_WORLD);

for(i=0;i<c;i++)

{

for(j=0;j<N;j++)

{

pp[i][j]=p[i][j];

}

}

MPI_Recv(&stop,1,MPI_INT,0,3*size,MPI_COMM_WORLD,&status);

}while(stop==1);

MPI_Send(&c,1,MPI_INT,0,4*size,MPI_COMM_WORLD);

for(i=0;i<c;i++)

{

MPI_Send(&p[i][0],N,MPI_FLOAT,0,5*size,MPI_COMM_WORLD);

}

}

if(rank>0&&rank<size-1)

{

do

{

MPI_Recv(b,N,MPI_FLOAT,rank-1,0,MPI_COMM_WORLD,&status);

MPI_Send(&p[c-1][0],N,MPI_FLOAT,rank+1,0,MPI_COMM_WORLD);

MPI_Recv(a,N,MPI_FLOAT,rank+1,size,MPI_COMM_WORLD,&status);

MPI_Send(&p[0][0],N,MPI_FLOAT,rank-1,size,MPI_COMM_WORLD);

max=0;

int ii;

if(rank<N%size||100%size==0)

{

ii=rank*c;

}

if(rank>N%size&&100%size!=0)

{

ii=(N%size)*(c+1)+(rank-N%size)*c;

}

for(i=1;i<c-1;i++)

{

for(j=1;j<N-1;j++)

{

p[i][j]=(pp[i+1][j]+pp[i-1][j]+pp[i][j+1]+pp[i][j-1])/4;

if(max<fabs(pp[i][j]-p[i][j]))

{

max=fabs(pp[i][j]-p[i][j]);

}

}

}

for(j=1;j<N-1;j++)

{

p[0][j]=(pp[1][j]+b[j]+pp[0][j+1]+pp[0][j-1])/4;

if(max<fabs(pp[0][j]-p[0][j]))

{

max=fabs(pp[0][j]-p[0][j]);

}

p[c-1][j]=(pp[c-2][j]+a[j]+pp[c-1][j+1]+pp[c-1][j-1])/4;

if(max<fabs(pp[c-1][j]-p[c-1][j]))

{

max=fabs(pp[c-1][j]-p[c-1][j]);

}

}

MPI_Send(&max,1,MPI_FLOAT,0,2*size,MPI_COMM_WORLD);

for(i=0;i<c;i++)

{

for(j=0;j<N;j++)

{

pp[i][j]=p[i][j];

}

}

MPI_Recv(&stop,1,MPI_INT,0,3*size,MPI_COMM_WORLD,&status);

}while(stop==1);

MPI_Send(&c,1,MPI_INT,0,4*size,MPI_COMM_WORLD);

for(i=0;i<c;i++)

{

MPI_Send(&p[i][0],N,MPI_FLOAT,0,5*size,MPI_COMM_WORLD);

}

}

Сурак

1.Есепті декомпозициялау және аймақты декомпозициялау тәсілі. Мысалдар.

Декомпозиция — это процесс разбиения задачи и ее решения на части. Иногда части группируются в логические области (т.е. поиск, сортировка, вычисление, ввод и вывод данных и т.д.). В других случаях части группируются по логическим ресурсам (т.е. файл, связь, принтер, база данных и т.д.). Существует три основных варианта декомпозиции: простая декомпозиция (trival), функциональная (functional) и декомпозиция данных. Вопрос об использовании того или иного типа декомпозици при написании параллельной программы решается исходя из структуры самой задачи. Причем, в зависимости от условий, можно использовать сразу несколько типов.

Тривиальная декомпозиция

Применяется она в том случае, когда различные копии линейного кода могут исполняться независимо друг от друга и не зависят от результатов, полученных в процессе счета других копий кода. Проиллюстрировать подобный вариант можно на примере решения задачи методом перебора или Монте-Карло. В этом случае одна и та же программа, получив различные начальные параметры, может быть запущена на различных процессорах кластера.