An Iterative Approach to Record Deduplication

M. Roshini Karunya; S. Lalitha; B.Tech.; M.E.

Abstrato

An Iterative Approach to Record Deduplication

M. Roshini Karunya, S. Lalitha, B.Tech., M.E.,

Record deduplication is the task of identifying, in a data repository, records that refer to the same real world entity or object in spite of misspelling words, typos, different writing styles or even different schema representations or data types [1]. The existing system aims at providing Unsupervised Duplication Detection method which can be used to identify and remove the duplicate records from different data sources. UDD, which for a given query, can effectively identify duplicates from the query result records of multiple web databases. Two cooperating classifiers, a Weighted Component Similarity Summing Classifier (WCSS) and Support Vector Machine (SVM) are used to iteratively identify the duplicate records from the non duplicate record and we also present a Genetic Programming (GP) approach to identify record deduplication. Since record deduplication is a time consuming task even for small repositories, our aim is to foster a method that finds a proper combination of the best pieces of evidence, thus yielding a deduplication function that maximizes performance using a small representative portion of the corresponding data for training purposes. We propose two more algorithms namely Particle Swarm Optimization (PSO), Bat Algorithm (BA) to improve the optimization. Index Terms – Data mining, duplicate records, genetic algorithm

Isenção de responsabilidade: Este resumo foi traduzido usando ferramentas de inteligência artificial e ainda não foi revisado ou verificado

Destaques do diário

Adaptativo Algoritmos Numéricos Avançados Armazenamento de dados Arquiteturas de computação avançadas Banda larga e redes inteligentes Bioinformática e Biologia Computacional Computação autônoma e sensível ao contexto Computação em grade Estrutura de dados Middleware baseado em agente Padrão de Inteligência Artificial/Reconhecimento de Imagem Protocolo de comunicação CDMA/GSM Rede ad hoc Robótica Segurança de banco de dados Sensores sem fio Sistemas de segurança Software livre Tecnologia Calma Tecnologia de radar

Indexado em

Index Copernicus

Academic Keys

CiteFactor

Cosmos IF

RefSeek

Hamdard University

World Catalogue of Scientific Journals

International Innovative Journal Impact Factor (IIJIF)

International Institute of Organised Research (I2OR)

Cosmos

Veja mais

Revistas Internacionais

Ciências Farmacêuticas Ciências Gerais Ciências Médicas Engenharia

Revista Internacional de Pesquisa Inovadora em Engenharia de Computação e Comunicação

Abstrato

An Iterative Approach to Record Deduplication

Destaques do diário

Indexado em

Revistas Internacionais

Endereço