Pesquisando como o conhecimento humano pode ser ensinado às máquinas

Professor Cuenca Grau – Raciocinando sobre gráficos de conhecimento

(Bernardo Cuenca Grau) (16 de dezembro de 2020)

Foto de Marvin Lagonera em Unsplash

Minha pesquisa nos últimos quinze anos tem se concentrado em Representação e Raciocínio do Conhecimento (KRR) – uma área da Inteligência Artificial e Ciência da Computação preocupada com a representação do conhecimento humano de forma simbólica e interpretável por máquina , e a manipulação eficaz por programas de computador desse conhecimento em combinação com dados.

Por exemplo, KRR estuda a maneira de representar em um formato que um computador possa entender declarações como todo dramaturgo é um autor , e se uma pessoa eu s nascido em uma cidade localizada em um determinado país, então este é o país de nascimento da pessoa . Uma vez que essas informações tenham sido representadas de forma inequívoca em uma linguagem adequada (geralmente um tipo de lógica formal), os sistemas KRR podem ser usados ​​para processar dados de uma forma mais inteligente.

Por exemplo, se nossos dados nos dizem que Douglas Adams é um dramaturgo nascido em Cambridge e Cambridge está localizada no Reino Unido, então um programa de computador seria capaz de deduzir automaticamente que Douglas Adams é um autor nascido no Reino Unido. O papel do raciocínio é descobrir algoritmicamente esta informação implícita a partir dos dados explicitamente fornecidos e do conhecimento de domínio representado.

Nos últimos anos, tem havido um enorme interesse no desenvolvimento e implantação de chamados de gráficos de conhecimento – uma forma de armazenar informações factuais (dados) e conhecimento como uma rede interconectada (conhecido como gráfico, no jargão da Ciência da Computação).

Em um gráfico de conhecimento, os itens de dados são representados como nós em o gráfico, enquanto as relações entre os itens de dados constituem as arestas do gráfico. Por exemplo, em nosso exemplo anterior, um gráfico de conhecimento poderia ter um nó para Douglas Adams, um nó para Cambridge e uma aresta rotulada com o relacionamento cidade de nascimento ligando o primeiro ao último.

Os gráficos fornecem um formato muito flexível para representar dados, o que é bom adequado para uma ampla gama de aplicações, onde abordagens mais tradicionais para gerenciamento de dados (como tecnologias de banco de dados relacional) não são facilmente aplicáveis. Um gráfico de conhecimento amplamente usado em aplicativos é o Wikidata , que codifica as informações disponíveis na Wikipedia em um gráfico contendo mais de 80 milhões de nós e cerca de um bilhão de arestas entre eles.

Os principais participantes da tecnologia estão adotando rapidamente os gráficos de conhecimento e usando-os de maneiras novas e inesperadas. O Google desenvolveu um gráfico de conhecimento com mais de 70 bilhões de arestas, que eles usam para responder a perguntas na web: tente digitar uma pergunta no Google como Qual é a altura da Torre Eiffel? E você obterá uma resposta direta, a saber 300m, 324m até a ponta , que foi obtido comparando sua pergunta ao gráfico de conhecimento do Google.

Empresas como o Google estão almejando alto: em última análise, toda a sabedoria humana, tudo que você pode querer saber sobre o mundo (você pode imaginar?) estará disponível no gráfico do conhecimento na ponta dos dedos, pronto para explorar aplicativos inovadores. E não apenas isso, informações sobre milhões de produtos estão sendo armazenadas em gráficos de conhecimento por empresas como a eBay, gráficos sobre qualquer coisa que você possa imaginar sendo gerados de forma semi-automática a partir de sites, bancos de dados e até mesmo documentos de texto; uma empresa chamada DiffBot tem um gráfico de conhecimento com mais de um trilhão (sim, com um t) arestas, com 150 milhões de novas arestas adicionadas todos os dias!

Como se pode facilmente imaginar, gerenciar gráficos tão gigantescos e consultá-los de forma fácil e eficiente não é uma tarefa fácil. E é aqui que as tecnologias de representação de conhecimento e raciocínio podem ser muito úteis.

Fonte: Keble College Review

Por exemplo, imagine que temos cerca de 5.000 dramaturgos como Douglas Adams em nosso gráfico de conhecimento. Se quisermos que todos eles sejam autores (e certamente queremos!), Precisaríamos adicionar arestas explícitas no gráfico conectando o nó para cada dramaturgo individual ao nó que representa o conceito de um “autor” no gráfico; isto é, 5.000 arestas a serem adicionadas manualmente.

Não só isso, se de repente notarmos um erro em nossos dados (talvez John Smith não seja um dramaturgo afinal), então precisaríamos também remover todas as arestas que dependem desse erro (que ou seja, o fato de John Smith ser um autor, o que só era verdade porque ele era considerado um dramaturgo).

Isso é quase impossível de gerenciar por meio de atualizações do usuário, ou mesmo programaticamente. Uma maneira muito mais conveniente seria representar uma regra afirmando que todo dramaturgo é um autor; então, um software especializado (um raciocinador) seria capaz de interpretar esta regra e adicionar e remover automaticamente as arestas relevantes do gráfico quando apropriado.

Raciocinar automaticamente com milhares de regras e gráficos contendo bilhões de bordas é um problema muito desafiador tanto do ponto de vista de pesquisa quanto tecnológico. Na verdade, estava muito além do estado da arte há cerca de 10-15 anos, quando os sistemas de pesquisa lutavam para lidar com gráficos contendo dezenas de milhares de nós.

A situação, no entanto, mudou dramaticamente nos últimos anos. Agora temos sistemas que podem retornar resultados de consultas complexas em gráficos contendo bilhões de arestas em milissegundos. Também temos sistemas que são capazes de gerenciar e raciocinar com conjuntos complexos de regras escritas em linguagens de regras poderosas e manter suas inferências em tempo real conforme os dados são atualizados no gráfico.

Um desses sistemas é RDFox – um gráfico de conhecimento de alto desempenho e motor de raciocínio que foi desenvolvido no Departamento de Ciência da Computação da Universidade de Oxford e que agora é um produto comercial desenvolvido e distribuído pela Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Como cofundador da Oxford Semantic Technologies Estou muito orgulhoso do que foi alcançado recentemente – testemunhar como um sistema cuidadosamente pensado pode raciocinar e responder perguntas quase que instantaneamente quando aplicado a conjuntos de regras sofisticados e gráficos de grande escala com dezenas de bilhões de conexões. Como cientista, é uma sensação incrivelmente gratificante experimentar como a pesquisa fundamental e de ponta, conduzida em nosso Grupo de Representação e Raciocínio de Conhecimento em Oxford, está agora sendo usada por aplicativos com os quais poderíamos apenas sonhar alguns anos atrás.

Sobre o autor

O Professor Bernardo Cuenca Grau trabalha na Universidade de Oxford, no Departamento de Ciência da Computação. Para obter uma biografia completa, leia o (artigo Conheça os fundadores.)

Sobre o artigo

Este artigo foi publicado originalmente na Keble College Review. Foi concedida permissão para republicar o artigo da faculdade e do autor na publicação de mídia da Oxford Semantic Technologies.

Equipe e recursos

A equipe por trás da Oxford Semantic Technologies começou a trabalhar no RDFox em 2011 no Departamento de Ciência da Computação da Universidade de Oxford com a convicção de que o raciocínio flexível e de alto desempenho era uma possibilidade para aplicações intensivas de dados, sem comprometer a exatidão dos resultados. RDFox é o primeiro gráfico de conhecimento pronto para o mercado, projetado desde o início com o raciocínio em mente. Oxford Semantic Technologies é uma derivação da Universidade de Oxford e é apoiada pelos principais investidores, incluindo Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) e o braço de investimento da Oxford University (OUI). O autor tem orgulho de fazer parte desta equipe.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *