Mostrar registro simples

dc.contributor.advisorGeyer, Claudio Fernando Resinpt_BR
dc.contributor.authorMignoni, Matheuspt_BR
dc.date.accessioned2017-09-28T02:27:30Zpt_BR
dc.date.issued2017pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/168935pt_BR
dc.description.abstractEste trabalho contempla, através da utilização de grandes massas de dados (Big Data) e cluster de computadores, os benefícios que as técnicas de computação distribuída podem prover no processamento de linguagens naturais (PLN), mais especificamente, na geração automática de Tesauros. Baseando-se em um pacote de programas existentes para geração de modelos semânticos distribucionais, que suportavam apenas a utilização de múltiplas threads, foi desenvolvido uma implementação, a partir do Framework Apache Flink, capaz de usufruir das vantagens existentes em um ambimente distribuído com múltiplas máquinas trabalhando em paralelo. A intenção da nova implementação é aprimorar a qualidade dos resultados e diminuir o tempo necessário para computação do mesmos, em comparação com simples implementações sequenciais. Os resultados obtidos mostram que alguns algoritmos obtêm ganhos relevantes e outros nem tanto. Foi concluído que a plataforma BigData pode auxiliar na geração de Tesauros, aumentando a capacidade de processameto de tarefas, antes pouco paralelizáveis, sem implicar em custo de codificação muito elevado para o programador.pt_BR
dc.description.abstractThis document present, through the use of large data masses (Big Data) and cluster of computers, the benefits of distributed computing techniques can provide in the processing of natural languages processing(NLP), more specifically in the automatic generation of Thesaurus. Based on a package of existing programs for generation of distributional semantic models, which only supported the use of multiple threads, an implementation was developed, from the Apache Flink Framework, able to take advantage of existing advantages in a distributed environment with multiple machines Working in parallel. The new implementation intent to improve the quality of the results and decrease the time required to compute them, compared to simple sequential implementations. The results obtained show that some algorithms obtain relevant gains and others not so much. It was concluded that the BigData platform is undoubtedly the future of computing large amounts of data, however, there are spaces for optimizations.en
dc.format.mimetypeapplication/pdf
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectApache flinken
dc.subjectTesauropt_BR
dc.subjectThesaurien
dc.subjectBig datapt_BR
dc.subjectPerformanceen
dc.subjectBig Dataen
dc.titleAferindo performance na geração automática de tesauros com técnicas de bigdatapt_BR
dc.title.alternativeAutomatic generation of thesaurus with bigdata techniques en
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coVillavicencio, Alinept_BR
dc.identifier.nrb001048286pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2017pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples