Nilesh Jain, Priyanka Mangal, Dr.
Central para qualquer projeto de data mining é ter quantidades suficientes de dados que possam ser processados ??para fornecer informações significativas e estatisticamente relevantes. Mas obter os dados não estruturados é apenas a fase inicial e esses dados devem ser transformados num formato estruturado que seja adequado para processamento posterior. Neste artigo propomos uma arquitetura para web crawling e organizamos os seus dados não estruturados utilizando algoritmo baseado em cluster. . O processo de agrupamento é baseado no algoritmo k-means. Este artigo é totalmente baseado no motor de rastreador focado que apenas verifica as páginas utilizando políticas gerais de rastreio.