Detecção, gerenciamento e consulta a réplicas e a versões de documentos XML

Saccol, Deise de Brum

dc.contributor.advisor	Edelweiss, Nina	pt_BR
dc.contributor.author	Saccol, Deise de Brum	pt_BR
dc.date.accessioned	2009-03-06T04:12:35Z	pt_BR
dc.date.issued	2008	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/15304	pt_BR
dc.description.abstract	O objetivo geral desta tese é a detecção, o gerenciamento e a consulta às réplicas e às versões de documentos XML. Denota-se por réplica uma cópia idêntica de um objeto do mundo real, enquanto versão é uma representação diferente, mas muito similar, deste objeto. Trabalhos prévios focam em gerenciamento e consulta a versões conhecidas, e não no problema da detecção de que dois ou mais objetos, aparentemente distintos, são variações (versões) do mesmo objeto. No entanto, o problema da detecção é crítico e pode ser observado em diversos cenários, tais como detecção de plágio, ranking de páginas Web, identificação de clones de software e busca em sistemas peer-to-peer (P2P). Nesta tese assume-se que podem existir diversas réplicas de um documento XML. Documentos XML também podem ser modificados ao longo do tempo, ocasionando o surgimento de versões. A detecção de réplicas é relativamente simples e pode ser feita através do uso de funções hash. Já a detecção de versões engloba conceitos de similaridade, a qual pode ser medida por várias métricas, tais como similaridade de conteúdo, de estrutura, de assunto, etc. Além da análise da similaridade entre os arquivos também se faz necessária a definição de um mecanismo de detecção de versões. O mecanismo deve possibilitar o gerenciamento e a posterior consulta às réplicas e às versões detectadas. Para que o objetivo da tese fosse alcançado foram definidos um conjunto de funções de similaridade para arquivos XML e o mecanismo de detecção de réplicas e de versões. Também foi especificado um framework onde tal mecanismo pode ser inserido e os seus respectivos componentes, que possibilitam o gerenciamento e a consulta às réplicas e às versões detectadas. Foi realizado um conjunto de experimentos que validam o mecanismo proposto juntamente com a implementação de protótipos que demonstram a eficácia dos componentes do framework. Como diferencial desta tese, o problema de detecção de versões é tratado como um problema de classificação, para o qual o uso de limiares não é necessário. Esta abordagem é alcançada pelo uso da técnica baseada em classificadores Naïve Bayesianos. Resultados demonstram a boa qualidade obtida com o mecanismo proposto na tese.	pt_BR
dc.description.abstract	The overall goals of this thesis are the detection, management and querying of replicas and versions of XML documents. We denote by replica an identical copy of a real-world object, and by version a different but very similar representation of this object. Previous works focus on version management and querying rather than version detection. However, the version detection problem is critical in many scenarios, such as plagiarism detection, Web page ranking, software clone identification, and peer-to-peer (P2P) searching. In this thesis, we assume the existence of several replicas of a XML document. XML documents can be modified over time, causing the creation of versions. Replica detection is relatively simple and can be achieved by using hash functions. The version detection uses similarity concepts, which can be assessed by some metrics such as content similariy, structure similarity, subject similarity, and so on. Besides the similarity analysis among files, it is also necessary to define the version detection mechanism. The mechanism should allow the management and the querying of the detected replicas and versions. In order to achieve the goals of the thesis, we defined a set of similarity functions for XML files, the replica and version detection mechanism, the framework where such mechanism can be included and its components that allow managing and querying the detected replicas and versions. We performed a set of experiments for evaluating the proposed mechanism and we implemented tool prototypes that demonstrate the accuracy of some framework components. As the main distinguishing point, this thesis considers the version detection problem as a classification problem, for which the use of thresholds is not necessary. This approach is achieved by using Naïve Bayesian classifiers.	en
dc.format.mimetype	application/pdf
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Banco : Dados	pt_BR
dc.subject	XML	en
dc.subject	Versioning	en
dc.subject	XML (Linguagem de marcação)	pt_BR
dc.subject	Similarity	en
dc.subject	P2P	pt_BR
dc.title	Detecção, gerenciamento e consulta a réplicas e a versões de documentos XML	pt_BR
dc.title.alternative	Detection, management and querying of replicas and versions of XML documents	en
dc.type	Tese	pt_BR
dc.contributor.advisor-co	Galante, Renata de Matos	pt_BR
dc.identifier.nrb	000675040	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2008	pt_BR
dc.degree.level	doutorado	pt_BR

Nome:: 000675040.pdf
Tamanho:: 1.167Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5041)

Computação (1733)

Mostrar registro simples