ICNDE : um novo método para identificação e correção de ruído para extração de dados
![Thumbnail](/bitstream/handle/10183/151069/001009770.pdf.jpg?sequence=3&isAllowed=y)
Visualizar/abrir
Data
2016Autor
Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
ICNDE : a new method to identification and correction of noise to data extraction
Assunto
Resumo
Através da web são encontradas muitas entidades que são descritas em páginas. A fim de obter os valores de tais entidades é necessária a utilização de um extrator de dados da web. Extratores de dados são utilizados por empresas dirigidas a dados para fazer consulta direta em motores de busca. Cada extrator de dados emprega sua própria abordagem. No entanto, os métodos de extração existentes são propensos a falhas na extração de valores. Este trabalho tem como objetivo primário propor um método ...
Através da web são encontradas muitas entidades que são descritas em páginas. A fim de obter os valores de tais entidades é necessária a utilização de um extrator de dados da web. Extratores de dados são utilizados por empresas dirigidas a dados para fazer consulta direta em motores de busca. Cada extrator de dados emprega sua própria abordagem. No entanto, os métodos de extração existentes são propensos a falhas na extração de valores. Este trabalho tem como objetivo primário propor um método que identifica e corrige ruído para extração de dados e como objetivos secundários, avaliar os casos de falha de extratores de dados de abordagens diferentes, esta avalição foi utilizada como subsídio para propor o método. Para essa avaliação dos casos de falha, foi utilizada uma base de dados real de diferentes domínios de aplicação que possuem um conjunto de diferentes sites que acumulam um total de 125k páginas. O avaliador também foi desenvolvido neste trabalho. A avaliação permitiu a identificação dos tipos mais comuns de ruídos que ocorrem nos valores extraídos pelos métodos. Em resposta a isso, o método ICNDE (Identification and Correction of Noise in Data Extraction - Identificação e Correção do Ruído para Extração de Dados) foi proposto como uma ferramenta que não apenas identifica o ruído nos dados extraídos, mas que também o corrige. O ICNDE usa um extrator de dados para obter regras que extraem valores de atributos em páginas web e realiza um pós-processamento para eliminar prefixos, sufixos e outros tipos de valores considerados ruídos. O pós-processamento utiliza procedimentos de anotação e tokenização para identificar os ruídos presentes nos valores extraídos, gerando uma saída composta dos valores extraídos sem ruídos. A eficácia, o percentual de erros e o desempenho do pós-processamento do ICNDE também foram avaliados. Para realizar esse experimento, foram utilizados métodos como baselines com duas abordagens diferentes, um baseado em XPath e outro baseado em árvore. O experimento mostrou que a etapa de pós-processamento aumentou a eficácia tanto no método baseado em XPath (ganho de F1 de 13%) quanto no método baseado em árvore (ganho de F1 de 11%), além disso, o percentual de erro diminui nos dois métodos. ...
Abstract
Through the web are found many entities that are described by pages. In order to obtain the values of such entities, the use of a web data extrator is a necessity. Data extractors are used by data-driven companies to do direct search queries on search engines. Each data extractor employs its own approach. However, the existing extraction methods are prone to failures in extracting values. The main objective of this work is to propose a method that identifies and corrects noise for data extracti ...
Through the web are found many entities that are described by pages. In order to obtain the values of such entities, the use of a web data extrator is a necessity. Data extractors are used by data-driven companies to do direct search queries on search engines. Each data extractor employs its own approach. However, the existing extraction methods are prone to failures in extracting values. The main objective of this work is to propose a method that identifies and corrects noise for data extraction and as secondary objectives to evaluate the cases of data extraction failures of different approaches, this evaluation was used as a subsidy to propose the method. For this assessment of failure cases, we used a real database of different application domains that have a set of different sites that accumulate a total of 125k pages. The evaluator was also developed in this work. The evaluation allowed the identification of the most common types of noise that occur in the values extracted by the methods. In response to this, the ICNDE (Data Identification and Correction of Noise to Data Extraction) method was proposed as a tool that not only identifies the noise in the extracted data, but also the Correct ICNDE uses a data extractor to obtain rules that extract attribute values from web pages and performs post-processing to eliminate prefixes, suffixes, and other types of values considered as noise. Post-processing uses annotation and tokenization procedures to identify the noises present in the extracted values, generating a composite output of the noise-free values. The efficacy, percentage of errors and post-processing performance of the ICNDE were also evaluated. To perform this experiment we used methods from two different approaches, one based on XPath and another based on tree. The experiment showed that the postprocessing step increased the efficacy of both the XPath-based method (13% F1 gain) and the tree-based method (F1 gain of 11%), and the error percentage decreased Two methods. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1043)
Este item está licenciado na Creative Commons License
![](/themes/Mirage2Novo//images/lume/cc.png)