Anaconda: Iniciando um ambiente de ciência de dados

é um gerenciador de pacotes e ambientes Python, mas atualmente é bem conhecido no meio de BigData e DataScience, em parceria com o Hederson Boechat, vamos iniciar um novo blog: Responsus, que tem como objetivo mostrar como podemos fazer o nosso controle financeiro utilizando as ferramentas de Ciência de Dados. Nesse post vou mostrar como…

MongoDB Sharding

No MongoDB Sharding é uma forma de distribuir dados através de múltiplos servidores com o objetivo de ter um grande cluster de dados. O Recurso de Sharding é utilizando quando se trabalha com grandes datasets, essa semana por exemplo vou precisar configurar um cluster de mongodb de com 3 máquinas que vão guardar 3 terabytes…

MongoDB Cluster 3 Replicas

O MongoDB é um banco com foco em escalabilidade horizontal, sendo assim ele possui um recurso chamado ReplicatSet que serve para replicar os dados em um cluster de servidores para garantir redundancia em caso de indisponiblidade e integridade dos dados. Para criar um ReplicatSet no MongoDB eu criei 3 instâncias t2.micro na AWS com o…

Hadoop Cluster

Nesse post vou explicar como é possível criar um cluster de hadoop utilizando 3 nodes. O Hadoop é um framework para se trabalhar com bigdata, ele possui um recursos chamado hdfs que armazena qualquer tipo de arquivo para que você possa fazer a análise posteriormente e um outro chamado YARN que é um framework de…

Sincronizando dados do PostgreSQL no Elasticsearch

Atualmente estou com uma missão de gerar relatórios e estatísticas com os dados do Moodle, porém o Moodle trabalha somente com bancos de dados relacionais como PostgreSQL e MySQL e o ambiente que vou analisar terá cerca de 6 mil usuários, uma hora ou outra as consultas para relatórios vão ficar lentas. Tendo este cenário…