Lar O negócio Mineração de big data

Mineração de big data

Anonim

Procurando uma vantagem comercial? Tome uma sugestão de Moneyball, que dramatizou como as equipes esportivas poderiam vencer se jogassem pelos números, em vez de instinto. Independentemente do tamanho da sua empresa, é hora de acompanhar o crescimento incansável e inestimável do fluxo de informações gerado por quase todos os setores da sociedade. Qualquer software que você esteja usando para processar dados hoje é quase certamente inadequado para enfrentar o desafio de um mundo que começa a pensar em zettabytes (isso é 1 bilhão de terabytes, com cada terabyte sendo 1 trilhão de bytes ). O desafio não é apenas armazenar todas essas informações, mas entender as oportunidades que ela oferece e analisá-las efetivamente antes da concorrência.

O Big Data, como é chamado, refere-se a grandes conjuntos de dados que vêm de quase todos os lugares - incluindo registros de vendas on-line, informações sobre remessa, informações climáticas, fotos de satélite e vídeo de vigilância remota, negociações na bolsa de valores geradas por computador, registros de detenções, postagens em sites de mídia social, informações de voo, sinais de GPS de celulares … e muito mais.

Os departamentos de polícia examinam rotineiramente enormes volumes dessas informações para prever e planejar as tendências do crime. Eles podem olhar, por exemplo, clima, padrões de tráfego, programações de eventos esportivos, feriados e datas de pagamento para identificar pontos críticos do crime onde alvos de oportunidade (como pessoas distraídas cheias de dinheiro) se cruzam com possíveis bandidos.

Varejistas experientes podem avaliar o desempenho de vendas de produtos, tendências de preços e dados demográficos para entender melhor as necessidades em constante mudança de seus clientes.

Os advogados poderiam estudar as decisões de juízes individuais para obter idéias sobre estratégias a serem usadas em seus tribunais - em muito menos tempo do que o necessário na biblioteca de leis analógicas.

As companhias aéreas podem saber antes de um avião pousar que a bagagem de um passageiro não fez o voo, alertar o passageiro sobre o paradeiro da mala e quando ele a pegará, antes que o sangue do passageiro comece a ferver enquanto ele espera ao lado de um carrossel vazio.

E os gerentes de equipes atléticas podem analisar dados e estatísticas para identificar jogadores subvalorizados, como no exemplo de Moneyball, baseado no time de beisebol de Oakland A, como registrado no livro de 2003 de Michael Lewis e no filme do ano passado, estrelado por Brad Pitt.

Se você nunca ouviu falar do Big Data ou de sua importância, não é de admirar. Considere que 90% dos dados mundiais foram criados nos últimos dois anos, diz a IBM, com mais de 2, 5 quintilhões de bytes de dados sendo criados diariamente.

Há apenas um ano, quase não existiam empregos que envolvam processamento de Big Data, mas agora os Estados Unidos enfrentam uma escassez de até 190.000 trabalhadores com experiência em análise, além de 1, 5 milhão de gerentes e analistas para entender e tomar decisões com base nessa análise, de acordo com ao McKinsey Global Institute, o braço de pesquisa do consultor internacional de gestão McKinsey & Co.

O mercado de tecnologia e serviços de Big Data crescerá de US $ 3, 2 bilhões em 2010 para US $ 16, 9 bilhões em 2015, de acordo com um relatório de 2012 da empresa internacional de previsão International Data Corp. O crescimento é ainda maior em certos setores, como armazenamento, estimado pela IDC para 61, 4% nos próximos cinco anos. E manipuladores de dados especializados serão pioneiros em novos mercados; empresas que fornecem informações médicas clínicas, por exemplo, podem ver um mercado de mais de US $ 10 bilhões até 2020, diz McKinsey.

A melhor forma de explorar esta verdadeira mina de ouro é uma questão que está sendo abordada por empresas de tecnologia, empreendedores, acadêmicos e até pelo governo Obama. Muitas empresas já estão fazendo isso. Já ouviu falar do Apache Hadoop? É um conjunto de programas de software livre e de código aberto que permite um processamento preciso de grandes conjuntos de dados. ( Foi nomeado para o elefante de brinquedo do filho do criador, chamado Hadoop .)

O conjunto de habilidades necessárias para usar efetivamente o Hadoop precisa estar na casa do leme de grandes corporações (que podem querer desenvolver equipes internamente), bem como de pequenas empresas (com maior probabilidade de distribuir para consultores). O Facebook processa bilhões de comunicações através do Hadoop todos os dias. O Yahoo também é um grande usuário, chamando-a de "a tecnologia de código aberto no epicentro do Big Data e da computação em nuvem". No ano passado, o Yahoo criou uma empresa chamada Hortonworks para desenvolver ainda mais o Hadoop, e seu CEO, Eric Baldeschwieler, prevê que em 2016, metade dos dados do mundo poderia ser confiada aos cuidados da Hortonworks. A lista de clientes é longa, incluindo Apple, LinkedIn, Microsoft, Netflix e StumbleUpon.

Vendas orientadas a dados

Mollie Lombardi, diretora de pesquisa para gerenciamento de capital humano do Aberdeen Group, vê grandes oportunidades para Big Data na arena de vendas e usa um exemplo pessoal extremamente básico. “Fiz o check-in em um hotel Westin / Starwood”, diz ela, “e o funcionário me disse: 'Bem-vindo de volta; Vejo que você estava conosco antes - gostaria de ficar no mesmo quarto? "

Ao ter essas informações na ponta dos dedos, o funcionário conseguiu fazer uma conexão pessoal. "Eles tinham a tecnologia para apresentar esse aviso à pessoa na mesa", diz Lombardi. "Da mesma forma, a coleta de dados pode dizer a uma empresa de marketing que não vou fazer uma compra com um desconto de 15% - mas tenho um histórico de responder a ofertas de 30%".

As forças de vendas devem ser usuários avançados do Big Data. Suponha que um gerente de negócios esteja ao telefone conversando com um cliente comum que diz que, por US $ 1 por peça, ele solicitará outras 500 unidades. Com um front end de Big Data, o gerente pode levar cinco ou seis segundos para acessar o histórico do cliente em mais de 20 ciclos de negócios. O cliente realmente cumpriu suas promessas de volume? Caso contrário, o gerente está em uma boa posição para negar o desconto ou oferecê-lo condicionalmente na compra de 1.000, e não de 500 unidades.

A oportunidade está aí para colocar ricos dados de clientes na frente dos vendedores - e pode ir muito além de uma lista de aniversários de crianças clientes para incluir uma análise detalhada dos padrões de compra reunidos de várias fontes em tempo real.

Nas empresas, a análise de Big Data permitirá que as empresas estudem seus vendedores com melhor desempenho e obtenham idéias sobre o que as torna boas. “Poderíamos olhar para os graduados das faculdades X, Y e Z e ver como eles se saíram”, diz Lombardi, “ou estudar os resultados com pessoas contratadas do concorrente A versus o concorrente B. Com as informações obtidas de fontes como essa, você pode crie um perfil de competência e use-o para replicar as melhores contratações de vendas. ”

Coisas emocionantes, certo? Não tão rápido. Um dos problemas do Big Data é que grande parte dele é inútil; de acordo com o B2B Sales Intelligence Blog, apenas 0, 01% da quantidade massiva de dados que sai de redes sociais, blogs e análises de produtos é útil para descobrir a intenção de um comprador. Novamente, a chave é processar e interpretar os dados e obter informações a partir deles.

Soluções para Cuidados de Saúde

A medicina é outro gerador de big data, e o Big Data ajuda a analisá-lo efetivamente - com resultados em alguns casos que podem salvar vidas. A equipe de ciência de dados da empresa de software empresarial Cloudera, na Califórnia, usou o Apache Hadoop para analisar eventos adversos a medicamentos que podem ocorrer quando duas ou mais prescrições são combinadas. Quatro por cento dos americanos com mais de 55 anos correm risco de interações medicamentosas. O problema na análise dos 1 milhão de relatórios recebidos anualmente pela Food and Drug Administration, Cloudera descobriu rapidamente, é uma explosão computacional - existem mais de 3 trilhões de combinações em potencial de triplas interações medicamentosas.

Mas obter respostas de conjuntos de dados tão grandes não está mais além do nosso alcance técnico. O mergulho profundo de Cloudera nos dados médicos revelou dezenas de milhares de reações adversas em pacientes que tomavam combinações de três drogas, todas merecendo uma investigação mais aprofundada. Por exemplo, um medicamento para convulsão usado em conjunto com um certo analgésico mostrou correlação com comprometimento da memória.

As interações medicamentosas são apenas uma aplicação médica entre muitas. A Salient Management Co. usa o Big Data para ajudar o Estado de Nova York a controlar os gastos do Medicaid. Durante cinco anos, o sistema de pagamento computadorizado do estado processou quase 2 bilhões de transações médicas envolvendo mais de 200.000 fornecedores e 9 milhões de destinatários.

Eliminar a fraude é difícil e dificultada porque os esquemas ilegais envolvem um grande número de registros. O sistema Medicaid gera 2 terabytes de dados anualmente, diz o CEO da Salient, Guy Amisano. Mas a tecnologia da Salient pode classificar todos esses dados rapidamente, procurando padrões e tendências estranhos que podem ser sinalizadores de fraude, como aumentos repentinos no faturamento de um local específico ou casos concentrados do mesmo procedimento.

O fator humano

O Big Data também oferece uma grande oportunidade para profissionais de recursos humanos. Brenda Kowske, Ph.D., analista sênior da Bersin & Associates, diz que o uso de análises baseadas em dados para RH ainda está engatinhando. "Usamos dados em marketing para descobrir o que os consumidores comprarão e em finanças para gerenciamento de riscos", diz ela. "Em recursos humanos, podemos usá-lo para prever como os funcionários se sairão no trabalho e como envolvê-los e motivá-los."

As leis de confidencialidade apresentam um grande obstáculo ao acesso ao Big Data de recursos humanos. As empresas enfrentam limites de quanto tempo eles podem armazenar dados pertencentes a indivíduos, e é difícil compartilhar dados de recursos humanos entre diferentes empresas.

Mas dentro dos limites legais, há muito que pode ser feito. Especificamente, os gerentes de RH podem estudar dados de funcionários anteriores, incluindo padrões de comportamento no trabalho, o que levará a identificar atributos de personalidade que são úteis para que as pessoas tenham desempenho no nível necessário para o cargo. "Isso exige que os gerentes pensem como pesquisadores e não como pessoas de RH", diz Kowske. “As empresas precisam não apenas coletar dados, mas armazená-los em formulários mináveis. Seria útil ter ferramentas inteligentes que pudessem rastrear diferentes sistemas de RH, porque é provável que os dados não estejam todos no mesmo local. ”

Uma indústria caseira está crescendo para ajudar os departamentos de RH a acelerar o trabalho com Big Data. Uma dessas empresas é a Spring International, cujo CEO, Robert Berrier, tem experiência em pesquisas presidenciais. Os políticos dividem os eleitores em segmentos que podem ser especificamente direcionados à publicidade de campanhas, diz Matt Fumento, vice-presidente de estratégia e desenvolvimento da Spring. No RH, diz ele, as empresas estão tentando entender melhor suas próprias forças de trabalho (e possíveis contratações) e maximizar seus níveis de engajamento no trabalho. A Spring avalia o envolvimento dos funcionários pesquisando e estudando esses dados, juntamente com informações como absentismo dos funcionários e tempo de doença. A primavera também analisa fatores como satisfação do cliente, geração de receita e lucratividade.

Profissionais engajados definitivamente contribuem para o resultado final. Para um cliente de uma companhia aérea, a Spring correlacionou os níveis de engajamento dos pilotos com a quantidade de tempo que eles estavam gastando na pista antes de decolar e descobriram que os atrasos nas aeronaves estavam custando à empresa US $ 100 milhões. Para clientes de varejo, como o Lowe's, ajuda a identificar o impacto do engajamento na receita gerada por metro quadrado de espaço de loja. A Lowe's conseguiu confirmar a ligação entre funcionários engajados, satisfação do cliente e geração de receita.

No nível mais simples, o cliente de Lowe que procurava um galão de tinta obteria isso e nada mais de um funcionário desmembrado. Mas se o funcionário estiver ouvindo, ele ou ela se interessará pelo projeto - e o cliente poderá acabar com pasta de spackling, lixa, pincéis e rolos, além da tinta. A Lowe's constatou que a diferença entre suas lojas com maior e menor participação era de mais de US $ 1 milhão em vendas anualmente.

É importante procurar resultados de receita reais, porque, de acordo com o livro Mapas de Estratégia: Convertendo Ativos Intangíveis em Resultados Tangíveis, 70 a 90% das empresas falham em suas estratégias de negócios. E uma razão para isso é que o RH - com informações potencialmente muito valiosas sobre como aumentar o desempenho dos funcionários - não tem assento na mesa quando decisões estratégicas importantes são tomadas. Em uma pesquisa de 2011, Engagement Maturity Practices, apenas quatro das 200 empresas estudadas tiveram a capacidade de igualar o envolvimento dos funcionários com os resultados dos negócios.

Fumento diz que o acesso ao Big Data - e às informações geradas em tempo real ao longo da vida profissional de um funcionário, não apenas nas revisões anuais ou trimestrais - deixará claro que o RH fornece um retorno do investimento para a empresa. "O modelo de inteligência da força de trabalho tem o potencial de revolucionar a função de RH", diz ele.

Into the Cloud

Os dados não estão apenas crescendo, mas também migrando on-line, o que apresenta desafios adicionais e oportunidades. Embora a computação em nuvem represente menos de 2% dos gastos com TI hoje, diz um Estudo do Universo Digital, até 2015, quase 20% das informações serão processadas pela nuvem e 10% serão armazenadas lá. Mais servidores virtuais usados ​​para computação em nuvem foram comprados em 2010 do que servidores físicos, diz a IDC.

O gerenciamento de Big Data é um desafio, pois a nuvem assume o controle, porque as informações armazenadas fora do escritório em servidores remotos precisam ser integradas aos bytes armazenados nos discos rígidos da empresa. Os funcionários da empresa desejam garantir que seus dados na nuvem estejam seguros e fora dos limites para terceiros e que eles sejam copiados regularmente e arquivados corretamente. Mas hospedar Big Data na nuvem tem muitas vantagens. Ao escrever para o ZDNet, Phil Wainewright usa o assistente de voz digital do iPhone 4, Siri, para ilustrar esse ponto. Gerações anteriores de reconhecimento de voz tiveram que ser treinadas na voz do usuário ao longo do tempo; A Siri dispensa isso - ele combina o usuário com o padrão de voz mais próximo em uma biblioteca cada vez maior de dezenas de milhares, possibilitada por sua casa na nuvem. Para a maioria das empresas, pequenas e grandes, o armazenamento na nuvem fará sentido porque não há limite de espaço importante e porque os dados são tão acessíveis a partir de locais remotos quanto quando armazenados internamente.

Não é apenas a capacidade de analisar grandes conjuntos de dados. “O que realmente importa”, diz Wainewright, “é a ampla base desses dados, reunidos de uma grande variedade de usuários dentro dos quais padrões de comportamento podem ser analisados ​​e depois aplicados em outros lugares. Pense nisso como dados de enxame - muitos comportamentos individuais e autônomos que, coletivamente, agregam padrões reutilizáveis. ”

Outra vantagem de armazenar Big Data na nuvem é a economia que ela oferece em custos de energia, de acordo com 62% dos gerentes de TI pesquisados ​​no Relatório de TI eficiente de energia de 2012 da CDW, um fornecedor de tecnologia e serviços. O uso de energia não é trivial - considere o caso do Google, que administra até 900.000 servidores que requerem 220 megawatts de geração de energia, o que representa quase 1% do uso global de energia do data center e 0, 01% da demanda total de energia do mundo. Segundo a pesquisa da CDW, a solução virtual reduziu a demanda de energia em média 28% entre os entrevistados.

Idealmente, as soluções em nuvem de uma empresa combinariam um grande armazenamento de dados com a capacidade de analisar todas essas informações - um balcão único. Essa solução foi anunciada pela Global Computer Enterprises em abril como SMART Cloud para Big Data e Analytics. Foi desenvolvido com ferramentas de código aberto, como o mencionado Apache Hadoop. As agências governamentais são os principais usuários-alvo.

O governo Obama, por coincidência, está anotando as possibilidades do Big Data. Em março, anunciou a Iniciativa de Pesquisa e Desenvolvimento de Big Data, um pacote de compromissos de US $ 200 milhões em seis agências, incluindo os departamentos de Energia, Defesa e Segurança Interna, projetados para “melhorar significativamente as ferramentas e técnicas necessárias para acessar, organizar e recolher descobertas de grandes volumes de dados digitais ”, diz Tom Kalil, vice-diretor de políticas do Escritório de Políticas de Ciência e Tecnologia.

Assim como um sistema governamental chamado ARPANET era um precursor da Internet de hoje, oportunidades semelhantes existem agora com o Big Data, diz John Holdren, consultor científico de Obama. “Da mesma forma que os investimentos federais passados ​​em tecnologia da informação levaram a avanços dramáticos na supercomputação e na criação da Internet, a iniciativa que estamos lançando hoje promete transformar nossa capacidade de usar o Big Data”, diz ele.

Parte do plano federal é fornecer US $ 10 milhões em pesquisa de financiamento na Universidade da Califórnia em Berkeley, através da National Science Foundation, para computação em nuvem, crowdsourcing (usando tecnologia moderna para coletar informações e imagens do público) e técnicas para ajudar os computadores "Aprender" com a experiência. Esse é exatamente o tipo de projeto de ponta que precisamos à medida que o Big Data amadurece, principalmente se os EUA quiserem manter uma liderança tecnológica. Estamos em uma encruzilhada emocionante, e o Big Data e o estudo dele estão em sua infância. Definitivamente, veremos o acúmulo de dados crescer exponencialmente em um futuro próximo. A questão é quão sabiamente vamos acessá-lo.

Big Data no mundo real

Os usos práticos do Big Data não são meramente teóricos - eles estão aqui e agora. Aqui estão cinco maneiras pelas quais pessoas e empresas inovadoras estão fazendo com que enormes fluxos de informações funcionem para eles:

Guerreiros da área de trabalho. Criando uma enorme quantidade de informações publicamente disponíveis do Wikileaks sobre a guerra no Afeganistão, Ph.D. da Universidade de Nova York o estudante Drew Conway conseguiu tirar algumas conclusões sobre períodos de pico e locais de conflito, de acordo com um relatório da Gigaom. Conway, que administra o blog Zero Intelligence Agents, organizou o despejo de Big Data por geografia e natureza dos encontros (hostis ou amigáveis) entre tropas dos EUA e afegãos. As conclusões deram credibilidade à idéia de que o conflito com o Taliban tende a atingir o pico durante certas estações do ano e concentra-se em torno do anel viário que circunda a capital de Cabul.

Metas de vendas. A cadeia de supermercados britânica Tesco experimentou um aumento de 12% nas vendas durante os primeiros testes, usando análise de dados para determinar quais itens mais vendidos devem ser descontados e quando. A subsidiária recentemente adquirida pela Tesco, Dunnhumby, empresa de informações de compras, acompanhou dados de vendas de 16 milhões de famílias, que fazem aproximadamente 6 milhões de transações por dia usando o Tesco Clubcards para acumular pontos de recompensa. A empresa também lucra com a venda de seus dados de preferências de compras para outras empresas. O programa não deixa de ser polêmico, no entanto, porque alguns críticos dizem que os compradores não sabem que suas informações estão sendo usadas para o lucro da Tesco. A empresa diz que está apenas identificando tendências, não oferecendo uma espiada na vida de seus clientes.

Quem está dirigindo nossos filhos? Nem todos os usos do Big Data são altamente complexos ou técnicos. Em Iowa, o governador Terry Branstad assinou com a lei um novo mandato de que os motoristas de ônibus escolar estarão sujeitos a verificações de antecedentes. Para ser aprovado, o candidato precisa sobreviver a uma pesquisa de registros públicos - incluindo o registro de agressores sexuais, o registro central de abuso infantil, arquivos sobre abuso de adultos dependentes e infrações de condução, se houver. Esses registros não são seqüestrados para uso oficial, como eram antes, mas estão disponíveis on-line na Pesquisa on-line dos tribunais de Iowa. O procedimento deve ser seguido a cada cinco anos, quando o motorista renova sua carteira. O registro mostra que as verificações cruzadas de dados podem ser valiosas para manter as crianças fora de perigo. Um motorista de ônibus escolar de Oregon foi preso em 2010, depois que uma investigação forense por computador encontrou oito vídeos de pornografia infantil em um site de rede social que havia sido carregado com seu endereço de e-mail e senha. Ele recebeu uma sentença de sete anos e, escusado será dizer, não levará mais crianças para a escola.

Carregado pelo Volt. A General Motors foi o primeiro fabricante de automóveis a oferecer uma gama completa de serviços, desde encontrar o carro perdido em um estacionamento até respostas a emergências e orientações de direção, através da conectividade sem fio do serviço OnStar. Através do OnStar, a GM agora manipula três incríveis petabytes de dados anualmente (um petabyte é igual a 1 quatrilhão de bytes). O diretor de informações da OnStar, Jeffrey Liedel, admite que a GM ainda não descobriu completamente como fazer seu fluxo de dados funcionar para seus clientes e para os resultados da empresa. Mas sabe que o OnStar será de grande benefício para seus futuros compradores de carros elétricos e está testando um aplicativo que permitirá que os motoristas verifiquem remotamente a carga da bateria e iniciem ou parem uma sessão de carregamento no conforto da poltrona da sala de estar.

Previsão de crises globais. A iniciativa Global Pulse das Nações Unidas utiliza dados digitais, como bate-papo nas mídias sociais, chamadas telefônicas e transações on-line para prever e entender melhor as crises econômicas, epidemias de saúde e desastres naturais. Pesquisadores da Pulse e do especialista em software de análise SAS analisaram mais de 500.000 blogs, fóruns on-line e sites de notícias na Irlanda e nos EUA para determinar se as mídias sociais conversam (particularmente sobre "redução", "uso de transporte público" e "desatualização do carro"). ) poderia prever picos de desemprego ocorridos três a cinco meses depois. Os pesquisadores da Global Pulse também usaram dados digitais, como o uso de telefones celulares, para monitorar o movimento de pessoas após o terremoto de 2010 no Haiti, bem como a propagação de um surto de cólera subsequente no país.

O Big Data é como um iceberg, com apenas um pouquinho de seus usos práticos visíveis para nós. O que é emocionante é o que seremos capazes de fazer quando o resto do iceberg se tornar visível. E, é claro, com questões de privacidade mais em jogo do que nunca, é preciso pensar: a descoberta desse iceberg salvará a economia global, afundará nossa humanidade ou ambas?

Mapas de estratégia: convertendo ativos intangíveis em resultados tangíveis