Abstrato

EXTRAÇÃO DE INFORMAÇÃO ESTRUTURADA DE PÁGINAS WEB NÃO ESTRUTURADAS OU SEMI-ESTRUTURADAS LEÍVEIS POR MÁQUINA

Vinod Kumar Raavi e Satya P Kumar Somayajula

Nos dias de hoje, a extração de informação estruturada de documentos legíveis por máquina não estruturados ou semiestruturados extemporaneamente desempenha um papel vital, pelo que muitos dos sites utilizam modelos comuns com conteúdos que produzem a informação para alcançar uma boa produtividade de publicação, mas o principal recurso para extrair a informação é WWW.Recentemente, a abordagem de deteção de modelos alcançou muitos esforços de consolidação para reformar em várias condições, como clustering e classificação de documentos da web, desempenho do motor de busca, pois os modelos diminuem o desempenho e a eficiência da aplicação web para máquinas, como resultado de termos de modelo irrelevantes. Queremos apresentar neste artigo um novo algoritmo para extrair modelos de um número excessivo de documentos web obtidos a partir de modelos heterogéneos. Ao compreender as semelhanças da estrutura básica do modelo no documento, agrupamos os documentos da web para que o modelo de cada grupo seja extraído simultaneamente. Assim sendo, os algoritmos propostos neste artigo podem ser considerados os melhores entre todos os algoritmos de deteção de templates.

Isenção de responsabilidade: Este resumo foi traduzido usando ferramentas de inteligência artificial e ainda não foi revisado ou verificado

Indexado em

Google Scholar
Academic Journals Database
Open J Gate
Academic Keys
ResearchBible
CiteFactor
Electronic Journals Library
RefSeek
Hamdard University
Scholarsteer
International Innovative Journal Impact Factor (IIJIF)
International Institute of Organised Research (I2OR)
Cosmos

Veja mais