<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Del&#039;Arco &#187; loop</title>
	<atom:link href="http://blog.delarco.com.br/tag/loop/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.delarco.com.br</link>
	<description>The Pixel Company</description>
	<lastBuildDate>Mon, 07 Jun 2010 18:35:28 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.4</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>OpenMP: Repetição Distribuída – Parte 2</title>
		<link>http://blog.delarco.com.br/openmp-repeticao-distribuida-%e2%80%93-parte-2/</link>
		<comments>http://blog.delarco.com.br/openmp-repeticao-distribuida-%e2%80%93-parte-2/#comments</comments>
		<pubDate>Tue, 27 Oct 2009 01:23:57 +0000</pubDate>
		<dc:creator>Leandro Del&#39;Arco</dc:creator>
				<category><![CDATA[C/C++]]></category>
		<category><![CDATA[OpenMP]]></category>
		<category><![CDATA[programação]]></category>
		<category><![CDATA[codeblocks]]></category>
		<category><![CDATA[for]]></category>
		<category><![CDATA[loop]]></category>
		<category><![CDATA[multicore]]></category>
		<category><![CDATA[múltiplos núcleos]]></category>
		<category><![CDATA[openmp]]></category>

		<guid isPermaLink="false">http://blog.delarco.com.br/?p=185</guid>
		<description><![CDATA[Nesse post não vou explicar as várias outras funcionalidades que a API oferece em relação aos loops. Aqui vou fazer uma pausa para testar o que foi explicado até agora. De que adianta a teoria sem um teste prático do que tá rolando?
Para testar um loop distribuído, resolvi criar uma função que calcula a multiplicação [...]]]></description>
			<content:encoded><![CDATA[<p>Nesse post não vou explicar as várias outras funcionalidades que a API oferece em relação aos loops. Aqui vou fazer uma pausa para testar o que foi explicado até agora. De que adianta a teoria sem um teste prático do que tá rolando?</p>
<p>Para testar um loop distribuído, resolvi criar uma função que calcula a multiplicação entre duas matrizes, colocando o resultado em uma terceira matriz (MC = MA * MB):</p>
<pre class="brush: cpp;">
const int MATRIX_SIZE = 1000;

int MA[MATRIX_SIZE][MATRIX_SIZE];
int MB[MATRIX_SIZE][MATRIX_SIZE];
int MC[MATRIX_SIZE][MATRIX_SIZE];

void multi()
{
    int soma;

    //percorre cada linha de MA
    for(int j = 0; j &lt; MATRIX_SIZE; j++)
    {
        //percorre cada coluna de MB
        for(int i = 0; i &lt; MATRIX_SIZE; i++, soma = 0)
        {
            //calcula
            for(int k = 0; k &lt; MATRIX_SIZE; k++)
            {
                soma += MA[j][k] * MB[k][i];
            }

            //coloca resoltado na matriz MC
            MC[j][i] = soma;
        }
    }
}

int main(int ac, char **av)
{
    multi();
    return 0;
}
</pre>
<p>Como o teste consiste em melhorar o desempenho do cálculo, não me dei ao trabalho de iniciar os elementos das matrizes e nem de verificar se o resultado está correto.</p>
<p>Executando o código anterior, o Code::Blocks retornou a mensagem:</p>
<p><strong>Process returned 0 (0&#215;0)   execution time : <span style="color: #ff0000">23.509 s</span><br />
Press any key to continue.</strong></p>
<p>Lembrando que executei a compilação debug sem nenhum tipo de otimização. Com certeza a release seria muito mais rápida.</p>
<p>Quem lembra das aulas de matemática do colegial, sabe que o cálculo de cada elemento resultante (MC) independe do cálculo de elementos anteriores. O laço <strong>for </strong>está de acordo com as restrições impostas pela API, então, pq não dividir a tarefa em várias threads?</p>
<pre class="brush: cpp;">
const int MATRIX_SIZE = 1000;

int MA[MATRIX_SIZE][MATRIX_SIZE];
int MB[MATRIX_SIZE][MATRIX_SIZE];
int MC[MATRIX_SIZE][MATRIX_SIZE];

void multi()
{
    //percorre cada linha de MA
    #pragma omp parallel for
    for(int j = 0; j &lt; MATRIX_SIZE; j++)
    {
        //percorre cada coluna de MB
        for(int i = 0; i &lt; MATRIX_SIZE; i++)
        {
            int soma = 0;

            //calcula
            for(int k = 0; k &lt; MATRIX_SIZE; k++)
            {
                soma += MA[j][k] * MB[k][i];
            }

            //coloca resoltado na matriz MC
            MC[j][i] = soma;
        }
    }
}

int main(int ac, char **av)
{
    multi();
    return 0;
}
</pre>
<p>Repare que, além do <em><strong>#pragma omp parallel for</strong></em> adicionado antes do primeiro loop, outras mudanças foram feitas para adaptar o código:</p>
<ul>
<li>A variável <strong>soma </strong>foi removida do começo da função e declarada dentro do segundo <strong>for, </strong>para evitar que seja compartilhada entre as threads;</li>
<li>Não é mais necessário zerar a variável soma no corpo do segundo <strong>for</strong>;</li>
</ul>
<p>Executando o código modificado, obtive o seguinte resultado:</p>
<p><strong>Process returned 0 (0&#215;0)   execution time : <span style="color: #ff0000">7.129 s</span><br />
Press any key to continue.</strong></p>
<p>Isso corresponde a, praticamente, um terço do tempo necessário para calcular pelo método tradicional. Surpreso? Requisitando 20 threads para executar o loop, obtive um resultado melhor ainda:</p>
<p><strong>Process returned 0 (0&#215;0)   execution time : <span style="color: #ff0000">6.692 s</span><br />
Press any key to continue.</strong></p>
<p>Okay, a diferença não é gritante, mas num sistema onde o desempenho é um faor crítico, esses ms podem fazer toda a diferença.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.delarco.com.br/openmp-repeticao-distribuida-%e2%80%93-parte-2/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>OpenMP: Repetição Distribuída &#8211; Parte 1</title>
		<link>http://blog.delarco.com.br/openmp-repeticao-distribuida-parte-1/</link>
		<comments>http://blog.delarco.com.br/openmp-repeticao-distribuida-parte-1/#comments</comments>
		<pubDate>Tue, 27 Oct 2009 00:42:15 +0000</pubDate>
		<dc:creator>Leandro Del&#39;Arco</dc:creator>
				<category><![CDATA[C/C++]]></category>
		<category><![CDATA[OpenMP]]></category>
		<category><![CDATA[programação]]></category>
		<category><![CDATA[codeblocks]]></category>
		<category><![CDATA[for]]></category>
		<category><![CDATA[loop]]></category>
		<category><![CDATA[multicore]]></category>
		<category><![CDATA[múltiplos núcleos]]></category>
		<category><![CDATA[openmp]]></category>

		<guid isPermaLink="false">http://blog.delarco.com.br/?p=168</guid>
		<description><![CDATA[No post Programação Multicore com OpenMP, mostrei como fazer a API funcionar no Code::Blocks, compilando um exemplo simples que executa um trecho de código em várias threads, ou seja, nada muito útil.
Agora que vc já conseguiu compilar o &#8220;Hello World&#8221; do primeiro post, vamos fazer bom uso do processamento distribuído nos nossos laços da repetição.
Primeiramente, [...]]]></description>
			<content:encoded><![CDATA[<p>No post <a href="http://blog.delarco.com.br/programacao-multicore-com-openmp/" target="_blank">Programação Multicore com OpenMP</a>, mostrei como fazer a API funcionar no Code::Blocks, compilando um exemplo simples que executa um trecho de código em várias threads, ou seja, nada muito útil.</p>
<p>Agora que vc já conseguiu compilar o &#8220;Hello World&#8221; do primeiro post, vamos fazer bom uso do processamento distribuído nos nossos laços da repetição.</p>
<p>Primeiramente, vc deve entender que, na programação com OpenMP, temos variáveis (parte da memória) compartilhadas e privates.</p>
<blockquote><p>Quê?!</p></blockquote>
<p>No exemplo abaixo, a variável <strong>a</strong> é visível para todas as threads que executarão a tarefa do bloco. Já a variável <strong>b</strong> possui uma cópia exclusiva em cada thread, ou seja, cada thread possui sua variável <strong>b</strong>.</p>
<pre class="brush: cpp;">

void some_function()
{
    int a = 0;

    #pragma omp parallel
    {
        int b = 1;
    }
}
</pre>
<blockquote><p>Okay, entendi&#8230; e daí?</p></blockquote>
<p>Por enquanto, leve em conta que saber disso pode evitar várias dores de cabeça.</p>
<h2>Usando OpenMP nos laços de repetição</h2>
<p>Para tal operação, definimos a seguinte linha antes do nosso <strong>for</strong>:</p>
<p><em><strong>#pragma omp parallel for</strong></em></p>
<p>Ficando assim:</p>
<pre class="brush: cpp;">
#pragma omp parallel for
for(int i = 0; i &lt; 10; i++)
{
    printf(&quot;iteration %d on thread %d\n&quot;, i, omp_get_thread_num());
}
</pre>
<p>O resultado é:<br />
<img class="aligncenter size-full wp-image-169" src="http://blog.delarco.com.br/wp-content/uploads/2009/10/omp_parallel_for_01.jpg" alt="omp_parallel_for_01" width="677" height="342" /></p>
<p>Nesse exemplo, as iterações do for serão divididas em várias threads (na minha execução, 3 threads). O número de threads corresponde ao número padrão ou o valor que vc definiu com <strong>omp_set_num_threads(num_threads)</strong>. Para não ter o trabalho de chamar a função em cada parte do código que vc deseja alterar o número de threads, a seguinte sintaxe é permitida:</p>
<p><em><strong>#pragma omp parallel for num_threads(NUM_THREADS)</strong></em></p>
<p>Onde <em><strong>NUM_THREADS</strong></em> corresponde ao número de threads que devem executar a tarefa.</p>
<p>Se o exemplo anterior for modificado para:</p>
<pre class="brush: cpp;">
#pragma omp parallel for num_threads(2)
for(int i = 0; i &lt; 10; i++)
{
    printf(&quot;iteration %d on thread %d\n&quot;, i, omp_get_thread_num());
}
</pre>
<p>Então o loop vai ser dividido em, no máximo, duas threads como mostra o resultado:</p>
<p><img class="aligncenter size-full wp-image-170" src="http://blog.delarco.com.br/wp-content/uploads/2009/10/omp_parallel_for_02.jpg" alt="omp_parallel_for_02" width="677" height="342" /></p>
<p>Como podemos notar, apenas as threads de ID 0 e 1 executam o for.</p>
<p>Repare que as iterações não são executadas em ordem, então leve em conta que se uma iteração depende de outra,  como na soma de médias num vetor de alunos, por exemplo (existe um jeito de fazer isso, vou explicar mais pra frente), vc terá problemas.</p>
<p>A API OpenMP impõe  as seguintes restrições no uso de loops paralelos:</p>
<ol>
<li>A variável que controla o loop (no caso anterior, <strong>i</strong>) deve ser do tipo <em>signed integer</em>;</li>
<li>A operação de comparação no corpo<strong> for</strong> deve ser do tipo <em>loop_variable &lt;,  &lt;=, &gt;, &gt;= integer_invariável</em>;</li>
<li>A terceira expressão do corpo <strong>for </strong>deve ser do tipo que incrementa (x++) ou decrementa (x- -);</li>
<li>Se a operação de comparação usar os operadores &lt; ou &lt;=, então a variável de controle deve ser incrementada a cada iteração. No caso contrário, se forem utilizados os operadores &gt; ou &gt;=, então a variável de controle deve ser decrementada a cada iteração;</li>
<li>O loop deve consistir em um único bloco de código, sem <em>jumps</em> (goto, por exemplo)<em> </em>para fora do loop. Como exceção, podemos usar <strong>exit()</strong> que finaliza a aplicação e não apenas a thread em questão. Caso vc utilize um <strong>break </strong>ou <strong>goto</strong>, esses devem levar a algum lugar DENTRO do loop e não fora. O mesmo vale para exceptions, que devem ser tratadas dentro do loop e não fora dele;</li>
</ol>
<p>Para deixar mais claro aquele conceito de memória compartilhada e private, temos o exemplo abaixo que não é válido, pois a variável <strong>temp </strong>é compartilhada por todas as threads, ou seja, enquanto a thread de ID 0 escreve um valor X e espera ler esse valor algumas instruções adiante, a thread de ID 1 escreve um valor Y no mesmo endereço de memória:</p>
<pre class="brush: cpp;">
int a[4] = {1, 2, 4, 8};
int temp;

#pragma omp parallel for
for(int i = 0; i &lt; 4; i++)
{
    temp = a[i];
}
</pre>
<p>Para um resultado correto, o ideal seria declarar a variável <strong>temp </strong>dentro do laço for:</p>
<pre class="brush: cpp;">
int a[4] = {1, 2, 4, 8};

#pragma omp parallel for
for(int i = 0; i &lt; 4; i++)
{
    int temp;
    temp = a[i];
}
</pre>
<h2>Reductions</h2>
<p>Nos permite compartilhar uma variável sem que sua integridade seja comprometida pela concorrência entre threads. Veja o exemplo:</p>
<pre class="brush: cpp;">
int notas[10] = {7, 4, 8, 3, 6, 9, 10, 1, 2, 5};
int soma = 0;

#pragma omp parallel for
for(int i = 0; i &lt; 10; i++)
{
    soma += notas[i];
}

printf(&quot;soma = %d\n&quot;, soma);
</pre>
<p>Não podemos garantir que a soma seja 55, pois todas as threads estão usando a mesma variável. Criar um lock? Não é necessário, pois a API nos permite fazer da seguinte forma:</p>
<pre class="brush: cpp;">
int notas[10] = {7, 4, 8, 3, 6, 9, 10, 1, 2, 5};
int soma = 0;

#pragma omp parallel for reduction(+:soma)
for(int i = 0; i &lt; 10; i++)
{
    soma += notas[i];
}

printf(&quot;soma = %d\n&quot;, soma);
</pre>
<p>Nos bastidores, o OpenMP cria uma variável private <strong>soma </strong>para cada thread e, ao final, soma todas e coloca o valor na variável compartilhada (global) <strong>soma</strong>. Então vc pode ter certeza que o valor de <strong>soma </strong>é o esperado.</p>
<p>As outras operações disponíveis são:</p>
<ul>
<li><strong>+ (adição)</strong>: a variável private inicia com o valor 0;</li>
<li><strong>- (subtração)</strong>: a variável private inicia com o valor 0;</li>
<li><strong>* (multiplicação)</strong>: a variável private inicia com o valor 1;</li>
<li><strong>&amp; (operador AND)</strong>: a variável private inicia com o valor ~0;</li>
<li><strong>| (operador OR)</strong>: a variável private inicia com o valor 0;</li>
<li><strong>^ (operador OR exclusivo)</strong>: a variável private inicia com o valor 0;</li>
<li><strong>&amp;&amp; (operador condicional AND)</strong>: a variável private inicia com o valor 1;</li>
<li><strong>|| (operador condicional OR)</strong>: a variável private inicia com o valor 0;</li>
</ul>
<p>A segunda parte eu deixo para outro post <img src='http://blog.delarco.com.br/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://blog.delarco.com.br/openmp-repeticao-distribuida-parte-1/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

<!-- www.000webhost.com Analytics Code -->
<script type="text/javascript" src="http://analytics.hosting24.com/count.php"></script>
<noscript><a href="http://www.hosting24.com/"><img src="http://analytics.hosting24.com/count.php" alt="web hosting" /></a></noscript>
<!-- End Of Analytics Code -->
