Prasannta Tiwari e Hitesh Gupta
Um elemento-chave na preservação da privacidade e confidencialidade dos dados sensíveis é a capacidade de avaliar a extensão de toda a potencial divulgação de tais dados. Por outras palavras, precisamos de ser capazes de responder até que ponto a informação confidencial numa base de dados perturbada pode ser comprometida por atacantes ou bisbilhoteiros. Várias técnicas aleatórias têm sido propostas para a mineração de dados contínuos com preservação da privacidade. Estas abordagens tentam frequentemente ocultar os dados sensíveis modificando aleatoriamente os valores dos dados utilizando algum ruído aditivo e visam reconstruir a distribuição original de perto a um nível agregado. A principal contribuição deste artigo reside no algoritmo para reconstruir com precisão a densidade conjunta da comunidade, dada a informação de dados de fluxo multidimensional perturbada. Qualquer questão estatística sobre a comunidade pode ser respondida utilizando a densidade de juntas reconstruída. Tem havido muitos esforços na reconstrução da distribuição comunitária. O nosso objetivo de investigação é determinar se as distribuições dos dados originais e recuperados são suficientemente próximas entre si, apesar da natureza do ruído aplicado. Estamos a considerar um método de agrupamento de conjuntos para reconstruir a distribuição inicial dos dados. Como ferramenta para a implementação do algoritmo escolhemos a “linguagem de eleição no mundo industrial” – MATLAB.