Investigar cómo se puede enseñar el conocimiento humano a las máquinas

Publicado el

Profesor Cuenca Grau – Razonamiento sobre los gráficos de conocimiento

(Bernardo Cuenca Grau) (16 de diciembre de 2020)

Foto de Marvin Lagonera en Unsplash

Mi investigación durante los últimos quince años se ha centrado en la representación y el razonamiento del conocimiento (KRR), un área de la inteligencia artificial y la informática que se ocupa de la representación del conocimiento humano de una manera simbólica e interpretable por máquinas. , y la manipulación efectiva por parte de programas de computadora de este conocimiento en combinación con datos.

Por ejemplo, KRR estudia la forma de representar en un formato que una computadora pueda entender declaraciones tales como cada dramaturgo es un autor , y si una persona yo s nacido en una ciudad ubicada en un país determinado, entonces este es el país de nacimiento de la persona «. Una vez que dicha información se ha representado de manera inequívoca en un lenguaje adecuado (generalmente una especie de lógica formal), los sistemas KRR se pueden usar para procesar datos de una manera más inteligente.

Por ejemplo, si nuestros datos nos dicen que Douglas Adams es un dramaturgo nacido en Cambridge y Cambridge se encuentra en el Reino Unido, entonces un programa de computadora podría deducir automáticamente que Douglas Adams es un autor nacido en el Reino Unido. El papel del razonamiento es descubrir algorítmicamente esta información implícita a partir de los datos dados explícitamente y el conocimiento del dominio representado.

En los últimos años, ha habido un enorme interés en el desarrollo y despliegue de llamados gráficos de conocimiento: una forma de almacenar información fáctica (datos) y conocimiento como una red interconectada (conocida como gráfico, en la jerga informática).

En un gráfico de conocimiento, los elementos de datos se representan como nodos en el gráfico, mientras que las relaciones entre los elementos de datos constituyen los bordes del gráfico. Por ejemplo, en nuestro ejemplo anterior, un gráfico de conocimiento podría tener un nodo para Douglas Adams, un nodo para Cambridge y un borde etiquetado con la relación ciudad de nacimiento que vincula al primero con el segundo.

Los gráficos proporcionan un formato muy flexible para representar datos, lo cual está bien adecuado para una amplia gama de aplicaciones, donde los enfoques más tradicionales para la gestión de datos (como las tecnologías de bases de datos relacionales) no son fácilmente aplicables. Un gráfico de conocimiento ampliamente utilizado en aplicaciones es Wikidata , que codifica la información disponible en Wikipedia en un gráfico que contiene más de 80 millones de nodos y aproximadamente mil millones de bordes entre ellos.

Los principales actores de la tecnología están adoptando rápidamente los gráficos de conocimiento y los utilizan de formas nuevas e inesperadas. Google ha desarrollado un gráfico de conocimiento con más de 70 mil millones de bordes, que utilizan para responder preguntas en la Web: intente escribir una pregunta en Google como ¿Qué altura tiene la Torre Eiffel? Y obtendrá una respuesta directa, a saber, 300 m, 324 m hasta la punta , que se obtuvo al hacer coincidir su pregunta con el gráfico de conocimiento de Google.

Empresas como Google apuntan alto: en última instancia, toda la sabiduría humana, todo lo que pueda querer saber sobre el mundo (¿se imagina?) estará disponible en el gráfico de conocimiento. al alcance de la mano, listo para explotar aplicaciones innovadoras. Y no solo eso, empresas como eBay almacenan información sobre millones de productos en gráficos de conocimiento, gráficos sobre cualquier cosa que puedas imaginar se generan semiautomáticamente a partir de sitios web, bases de datos e incluso documentos de texto; una empresa llamada DiffBot tiene un gráfico de conocimiento con más de un billón (sí, con una t) de bordes, con 150 millones de bordes nuevos agregados cada día.

Como uno puede imaginarse, administrar gráficos tan gigantescos y consultarlos de manera fácil y eficiente no es una tarea fácil. Y aquí es donde las tecnologías de representación y razonamiento del conocimiento pueden resultar muy útiles.

Fuente: Keble College Review

Por ejemplo, imagine que tenemos alrededor de 5,000 dramaturgos como Douglas Adams en nuestro gráfico de conocimiento. Si queremos que todos sean autores (¡y ciertamente lo hacemos!), Tendríamos que agregar bordes explícitos en el gráfico que conectan el nodo de cada dramaturgo individual con el nodo que representa el concepto de «autor» en el gráfico; es decir, 5.000 bordes que se agregarán manualmente.

No solo eso, si de repente notamos un error en nuestros datos (tal vez John Smith no es un dramaturgo después de todo), entonces también tendríamos que eliminar todos los bordes que dependen de ese error (que es decir, el hecho de que John Smith es un autor, lo cual solo era cierto porque se creía que era un dramaturgo).

Esto es casi imposible de administrar mediante actualizaciones de usuario, o incluso mediante programación. Una forma mucho más conveniente sería representar una regla que establezca que «todo dramaturgo es un autor»; luego, una pieza de software especializada (un razonador) podría interpretar esta regla y agregar y eliminar automáticamente los bordes relevantes del gráfico cuando corresponda.

Razonar automáticamente con miles de reglas y gráficos que contienen miles de millones de Bordes es un problema muy desafiante tanto desde una perspectiva de investigación como tecnológica. De hecho, fue mucho más allá del estado del arte hace unos 10-15 años, cuando los sistemas de investigación tenían dificultades para hacer frente a gráficos que contienen decenas de miles de nodos.

Sin embargo, la situación ha ha cambiado drásticamente en los últimos años. Ahora tenemos sistemas que pueden devolver resultados a consultas complejas sobre gráficos que contienen miles de millones de bordes en milisegundos. También tenemos sistemas que pueden administrar y razonar con conjuntos complejos de reglas escritas en potentes lenguajes de reglas y mantener sus inferencias sobre la marcha a medida que los datos se actualizan en el gráfico.

Uno de esos sistemas es RDFox: un motor de razonamiento y gráfico de conocimiento de alto rendimiento que se desarrolló en el Departamento de Ciencias de la Computación de la Universidad de Oxford y que ahora es un producto comercial desarrollado y distribuido por Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Como cofundador de Oxford Semantic Technologies Estoy muy orgulloso de lo que se ha logrado recientemente: ser testigo de cómo un sistema cuidadosamente pensado puede razonar y responder consultas casi instantáneamente cuando se aplica a conjuntos de reglas sofisticados y gráficos a gran escala con decenas de miles de millones de conexiones. Como científico, es una sensación increíblemente gratificante experimentar cómo la investigación fundamental y de vanguardia, realizada en nuestro Grupo de Representación y Razonamiento del Conocimiento en Oxford, está siendo utilizada ahora por aplicaciones con las que solo podíamos soñar hace unos pocos años.

Sobre el autor

El profesor Bernardo Cuenca Grau trabaja en la Universidad de Oxford, dentro del Departamento de Ciencias de la Computación. Para obtener una biografía completa, lea el (artículo Conozca a los fundadores).

Acerca del artículo

Este artículo se publicó originalmente en Keble College Review. El Colegio y Autor de Oxford Semantic Technologies Medium Publication dio permiso para volver a publicar el artículo.

Equipo y recursos

El equipo detrás de Oxford Semantic Technologies comenzó a trabajar en RDFox en 2011 en el Departamento de Ciencias de la Computación de la Universidad de Oxford con la convicción de que el razonamiento flexible y de alto rendimiento era una posibilidad para aplicaciones intensivas en datos sin poner en peligro la corrección de los resultados. RDFox es el primer gráfico de conocimiento listo para el mercado diseñado desde cero con el razonamiento en mente. Oxford Semantic Technologies es un derivado de la Universidad de Oxford y cuenta con el respaldo de inversores líderes como Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) y el brazo de inversión de la Universidad de Oxford (OUI). El autor se enorgullece de ser miembro de este equipo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *