fevereiro 12, 2021

[Segurança] O desafio de criar uma base global com vazamentos de dados

Recentemente a ACM publicou um artigo sobre os desafios de criar uma base de dados com todos os vazamentos de informações que acontecem no mundo todo. Esse  trabalho acadêmico foi fruto de uma parceria do C6 Bank com o pessoal do MIT CAMS, aonde eu trabalhei junto com o professor Stuart Madnick e os colegas Nelson Novaes Neto e a Natasha Malara Borges.

No paper Developing a Global Data Breach Database and the Challenges Encountered nós descrevemos os desafios que sofremos ao levantar os incidentes de vazamentos de dados que aconteceram durante os anos de 2018 e 2019. Ao todo, identificamos várias centenas de incidentes relevantes, e criamos uma base online com todos os incidentes que comprometeram pelo menos 30 mil pessoas (criamos uma quantidade mínima para que a base não ficasse gigante): www.databreachdb.com.

É interessante notar que identificamos 269 incidentes relevantes em 2019 na nossa base de dados (isto é, incidentes em que vazaram pelo menos 30 mil registros), que totalizaram mais de 22 bilhões de dados vazados apenas em 2019.


Comparando com outros estudos disponíveis no mercado, esse número é muito maior do que a melhor estimativa disponível:
Nós detalhamos no paper como foi o processo e quais os desafios. Resumindo, os principais desafios foram:
  • Demora em identificar os incidentes: como as empresas podem demorar alguns meses para identificar e reportar os incidentes de segurança, só é possível ter uma visão da quantidade de incidentes por ano na metade do ano seguinte. Assim, certamente qualquer estudo que surja no início do ano será impreciso;
  • Falta de visibilidade global, pois em geral a imprensa só destaca os incidentes que acontecem em grandes empresas e, principalmente, em empresas nos EUA e na Europa. Assim, incidentes de vazamento de dados em países menos importantes não viram notícia na imprensa global, e acabam não entrando nas estatísticas;
  • O excesso de incidentes faz com que a imprensa divulgue apenas incidentes em grandes empresas e de maior relevância, caso contrário, o excesso de notícias faria a audiência perter interesse no assunto.;
  • Falta de padrões globais para divulgação de incidentes, o que faz com que as informações e detalhes sobre os incidentes não sejam compartilhadas com frequência, dificultando o mapeamento dos incidentes.
Veja a transcrição do Abstract do paper:
"If the mantra “data is the new oil” of our digital economy is correct, then data leak incidents are the critical disasters in the online society. The initial goal of our research was to present a comprehensive database of data breaches of personal information that took place in 2018 and 2019. This information was to be drawn from press reports, industry studies, and reports from regulatory agencies across the world. This article identified the top 430 largest data breach incidents among more than 10,000 data breach incidents. In the process, we encountered many complications, especially regarding the lack of standardization of reporting. This article should be especially interesting to the readers of JDIQ because it describes both the range of data quality and consistency issues found as well as what was learned from the database created. The database that was created, available at https://www.databreachdb.com, shows that the number of data records breached in those top 430 incidents increased from around 4B in 2018 to more than 22B in 2019. This increase occurred despite the strong efforts from regulatory agencies across the world to enforce strict rules on data protection and privacy, such as the General Data Protection Regulation (GDPR) that went into effect in Europe in May 2018. Such regulatory effort could explain the reason why there is such a large number of data breach cases reported in the European Union when compared to the U.S. (more than 10,000 data breaches publicly reported in the U.S. since 2018, while the EU reported more than 160,0001 data breaches since May 2018). However, we still face the problem of an excessive number of breach incidents around the world. This research helps to understand the challenges of proper visibility of such incidents on a global scale. The results of this research can help government entities, regulatory bodies, security and data quality researchers, companies, and managers to improve the data quality of data breach reporting and increase the visibility of the data breach landscape around the world in the future."
A propósito, fui eu quem criou e inseriu a primeira frase do Abstract, para criar um pequeno impacto na chamada do paper:
"If the mantra “data is the new oil” of our digital economy is correct, then data leak incidents are the critical disasters in the online society."

Para saber mais:

Nenhum comentário:

Creative Commons License
Disclaimer: The views expressed on this blog are my own and do not necessarily reflect the views of my employee.