Nos últimos anos, o avanço da tecnologia tem impulsionado uma explosão no volume de dados gerados diariamente. Com a popularização da Internet das Coisas (IoT), redes sociais, dispositivos móveis e sistemas de monitoramento em tempo real, o conceito de Big Data tornou-se essencial para empresas, governos e pesquisadores. Big Data refere-se ao processamento e análise de grandes volumes de dados estruturados e não estruturados, possibilitando a extração de informações valiosas para tomada de decisões.
O termo Big Data começou a ser utilizado no final da década de 90, indicando a enorme quantidade de dados que estão sendo gerados todos os dias pelos diversos sistemas e equipamentos. De modo geral, pode-se dizer que Big Data é, essencialmente, tudo que é capturado ou gravado digitalmente pelas modernas TICs (Tecnologias de Informação e Comunicação), tais como IoT, redes de sensores, objetos e dispositivos "inteligentes", a internet e mídias sociais.
O
fenômeno do Big Data tem sido
caracterizado pelo Volume, Velocidade e Variedade nos tipos de dados que tem
sido gerado em taxas cada vez maiores. Essa definição, utilizada atualmente que diz que o crescimento destes
dados é "alto" e está associado a três (3) variáveis conhecidas como
três (3) V’s: a) alto Volume (quantidade crescente de dados), b) de alta
Velocidade (fluxo de dados chegando à alta velocidade, por exemplo, em
tempo real) e, c) alta Variedade (muitos diferentes tipos de dados como
texto, áudio, vídeo, etc).
Além disso, alguns pesquisadores adicionaram três (3) novos V’s que
também podem ser encontrados na literatura: a) Veracidade (como as
organizações confiar nos dados no sentido de integridade e confidencialidade), b)
Variabilidade (como estrutura de dados pode mudar) e, c) Valor
(valor do negócio em virtude dos dados das organizações).
Com isso, pode-se
sintetizar as características e funcionalidade do Big Data em seis (6) V´s:
·
Volume: se refere ao tamanho dos dados que
foram criados a partir de todas as fontes.
· Velocidade: refere-se à velocidade em que dados
são gerados, armazenados, analisados e processados. Uma ênfase será colocada
recentemente no apoio a análise de grande volume de dados em tempo real.
· Variedade: refere-se aos diferentes tipos de
dados a serem gerados. É comum que a maioria dos dados sejam não-estruturados e
não podem ser facilmente categorizados ou tabulados.
· Veracidade: se refere à exatidão dos dados
capturados, e qual o significado dos resultados gerados a partir dos dados
coletados para determinados problemas.
· Variabilidade: refere-se como a estrutura e o
significado de dados muda constantemente especialmente quando lidando com dados
gerados a partir de análise de linguagem natural por exemplo.
· Valor: refere-se a possível vantagem de
grande volume de dados pode oferecer um negócio baseado na análise, gestão e
coleta de dados.
As características do Big Data demonstram o grande potencial de ganhos e avanços na utilização desse conceito. As possibilidades são infinitas; no entanto, deve-se interligar as tecnologias e ferramentas disponíveis. O Big Data pode ser também processado em Computação em Nuvem (Cloud Computing) utilizando o modelo computacional denominado de Plataforma como Serviço (PaaS – Plataform-as-a-Service) ou Infraestrutura como Serviço (IaaS – Infraestruct-as-a-Service).
Algumas das principais plataformas computacionais para Cloud Computing são: AWS (Amazon Web Services) <aws.amazon.com>, Microsoft Azure
<azure.microsoft.com>, Google Cloud
<cloud.google.com> e IBM Cloud <www.ibm.com/cloud>, dentre outras.
Apesar dos benefícios, a
utilização de Big Data traz desafios
como a privacidade e segurança dos
dados, a necessidade de profissionais especializados e a complexidade da
infraestrutura tecnológica. Regulamentações como a LGPD (Lei Geral de Proteção de Dados) e o GDPR (General Data Protection Regulation) na Europa impõem
diretrizes rigorosas para a coleta e utilização de informações pessoais.