Vinod Kumar Raavi e Satya P Kumar Somayajula
Nos dias de hoje, a extração de informação estruturada de documentos legíveis por máquina não estruturados ou semiestruturados extemporaneamente desempenha um papel vital, pelo que muitos dos sites utilizam modelos comuns com conteúdos que produzem a informação para alcançar uma boa produtividade de publicação, mas o principal recurso para extrair a informação é WWW.Recentemente, a abordagem de deteção de modelos alcançou muitos esforços de consolidação para reformar em várias condições, como clustering e classificação de documentos da web, desempenho do motor de busca, pois os modelos diminuem o desempenho e a eficiência da aplicação web para máquinas, como resultado de termos de modelo irrelevantes. Queremos apresentar neste artigo um novo algoritmo para extrair modelos de um número excessivo de documentos web obtidos a partir de modelos heterogéneos. Ao compreender as semelhanças da estrutura básica do modelo no documento, agrupamos os documentos da web para que o modelo de cada grupo seja extraído simultaneamente. Assim sendo, os algoritmos propostos neste artigo podem ser considerados os melhores entre todos os algoritmos de deteção de templates.