Correspondência de esquema

Content

Impedimentos

Entre outros, desafios comuns para automatizar a correspondência e o mapeamento foram classificados anteriormente em esquemas de banco de dados relacionais; e em - uma lista bastante abrangente de heterogeneidade não se limitando ao modelo relacional que reconhece diferenças esquemáticas vs semânticas/heterogeneidade. A maioria dessas heterogeneidades existe porque os esquemas usam representações ou definições diferentes para representar as mesmas informações (conflitos de esquema); Ou expressões diferentes, unidades e precisão resultam em representações conflitantes dos mesmos dados (conflitos de dados). A pesquisa em correspondência de esquema procura fornecer suporte automatizado ao processo de encontrar correspondências semânticas entre dois esquemas. Este processo é mais difícil devido a heterogeneidades nos seguintes níveis

Syntactic heterogeneity – differences in the language used for representing the elementsStructural heterogeneity – differences in the types, structures of the elementsModel / Representational heterogeneity – differences in the underlying models (database, ontologies) or their representations (key-value pairs, relational, document, XML, JSON, triples, graph, RDF, OWL)Semantic heterogeneity – where the same real world entity is represented using different terms or vice versa

Correspondência de esquema

Metodologia

Discute uma metodologia genérica para a tarefa de integração de esquema ou as atividades envolvidas. Segundo os autores, pode -se ver a integração.

Preintegration — An analysis of schemas is carried out before integration to decide upon some integration policy. This governs the choice of schemas to be integrated, the order of integration, and a possible assignment of preferences to entire schemas or portions of schemas.Comparison of the Schemas — Schemas are analyzed and compared to determine the correspondences among concepts and detect possible conflicts. Interschema properties may be discovered while comparing schemas.Conforming the Schemas — Once conflicts are detected, an effort is made to resolve them so that the merging of various schemas is possible.Merging and Restructuring — Now the schemas are ready to be superimposed, giving rise to some intermediate integrated schema(s). The intermediate results are analyzed and, if necessary, restructured in order to achieve several desirable qualities.

Abordagens

As abordagens para a integração do esquema podem ser amplamente classificadas como aquelas que exploram apenas informações de esquema ou informações de esquema e no nível da instância.

Matcores no nível de esquema consideram apenas informações de esquema, não dados de instância. As informações disponíveis incluem as propriedades usuais dos elementos do esquema, como nome, descrição, tipo de dados, tipos de relacionamento (parte de IS-A, etc.), restrições e estrutura de esquema. Trabalhando no elemento (elementos atômicos como atributos de objetos) ou nível de estrutura (combinações correspondentes de elementos que aparecem juntos em uma estrutura), essas propriedades são usadas para identificar elementos correspondentes em dois esquemas. Matchers baseados em idiomas ou lingüísticos usam nomes e texto (ou seja, palavras ou frases) para encontrar elementos de esquema semanticamente semelhantes. Matcores baseados em restrições exploram restrições frequentemente contidas nos esquemas. Tais restrições são usadas para definir tipos de dados e faixas de valor, exclusividade, opcionalidade, tipos de relacionamento e cardinalidades, etc. As restrições em dois esquemas de entrada são correspondidas para determinar a semelhança dos elementos do esquema.

Os correspondentes no nível da instância usam dados no nível da instância para obter informações importantes sobre o conteúdo e o significado dos elementos do esquema. Eles geralmente são usados, além das correspondências do nível do esquema, a fim de aumentar a confiança nos resultados da correspondência, mais quando as informações disponíveis no nível do esquema são insuficientes. Os fósforos nesse nível usam caracterização lingüística e baseada em restrições de instâncias. Por exemplo, usando técnicas lingüísticas, pode ser possível olhar para as instâncias do Departamento, Departamento e Empname para concluir que o DeptName é um candidato melhor para o Departamento do que EmpName. Restrições como o ZIPCodes devem ter 5 dígitos ou o formato de números de telefone podem permitir a correspondência desses tipos de dados de instância.

Matcores híbridos combinam diretamente várias abordagens correspondentes para determinar os candidatos de correspondência com base em múltiplos critérios ou fontes de informação. A maioria dessas técnicas também emprega informações adicionais, como dicionários, thesauri e informações fornecidas pelo usuário ou informações de incompatibilidade

Reutilizar a Informação correspondente A iniciativa foi reutilizar informações de correspondência anteriores como informações auxiliares para futuras tarefas de correspondência. A motivação para este trabalho é que estruturas ou subestruturas geralmente se repetem, por exemplo, em esquemas no domínio do comércio eletrônico. Essa reutilização de partidas anteriores, no entanto, precisa ser uma escolha cuidadosa. É possível que essa reutilização faça sentido apenas para alguma parte de um novo esquema ou apenas em alguns domínios. Por exemplo, salário e renda podem ser considerados idênticos em um pedido de folha de pagamento, mas não em um pedido de relatório de impostos. Existem vários desafios abertos em tal reutilização que merecem mais trabalhos.

Amostra prototypestypicamente, a implementação de tais técnicas de correspondência pode ser classificada como sistemas baseados em regras ou baseados em alunos. A natureza complementar dessas diferentes abordagens instigou várias aplicações usando uma combinação de técnicas, dependendo da natureza do domínio ou aplicação em consideração.

Relacionamentos identificados

Os tipos de relacionamento entre objetos que são identificados no final de um processo de correspondência são normalmente aqueles com semântica definida, como sobreposição, disjuntura, exclusão, equivalência ou subsunção. As codificações lógicas desses relacionamentos são o que elas significam. Entre outros, foi apresentada uma tentativa inicial de usar lógicas de descrição para integração de esquema e identificar tais relacionamentos. Várias ferramentas de correspondência de última geração atualmente e aquelas comparadas com a iniciativa de avaliação de alinhamento da ontologia são capazes de identificar muitos correspondências simples (1: 1 /1: n / n: 1 no nível do elemento) e correspondências complexas (n: 1 / n: m elemento ou nível de estrutura corresponde) entre objetos.

Avaliação da qualidade

A qualidade da correspondência de esquema é comumente medida por precisão e recall. Enquanto a precisão mede o número de pares correspondentes corretamente em todos os pares que foram correspondidos, o RECORD mede quantos dos pares reais foram correspondidos.

Veja também

Data integrationDataspacesFederated database systemMinimal mappingsOntology alignmentSchema crosswalk