SIM: um modelo semântico inferencialista para expressão e raciocínio em sistemas de linguagem natural

Pinheiro, Vládia Célia Monteiro

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/61242

Tipo:	Tese
Título:	SIM: um modelo semântico inferencialista para expressão e raciocínio em sistemas de linguagem natural
Autor(es):	Pinheiro, Vládia Célia Monteiro
Orientador:	Pequeno, Tarcisio Haroldo Cavalcante
Coorientador:	Furtado, João José Vasco Peixoto
Palavras-chave:	Processamento de linguagem natural (Computação);Semântica;Inferência (Lógica)
Data do documento:	2010
Citação:	PINHEIRO, Vládia Célia Monteiro. SIM: um modelo semântico inferencialista para expressão e raciocínio em sistemas de linguagem natural. 2010. 229 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2010.
Resumo:	0 processamento computacional de linguagem natural é um dos grandes desafios da área de Inteligência Artificial. E premente a necessidade por sistemas computacionais que nos auxiliem a processar a quantidade de informações não estruturadas, em linguagem natural, que nos inunda. Impulsionados por esta necessidade, estudamos várias filosofias da linguagem para entender em que consiste o significado de uma expressão linguistica ou, pelo menos, qual das respostas que a Filosofia nos empresta torna possível aos sistemas de computador endereçar as necessidades e desafios de forma eficaz. Para as teorias representacionalistas, conceitos são as coisas ou estado de coisas representadas pelos termos e expressões linguisticas. Tem-se, portanto, a ideia de um mundo único e regular — um mundo indutivo. Filosofias pragmáticas, como a do segundo Wittgenstein, definem novo conceito de "conceito": o conteúdo de um conceito compõe-se de seus diversos usos em jogos de linguagem. E com base na prática de aplicar conceitos em situações de uso da linguagem que os conceitos podem ser definidos e entendidos. Filósofos inferencialistas como Sellars, Dummett e Brandom retomam o projeto de uma teoria semântica, apresentando uma redução da óptica pragmática para os usos de conceitos em jogos racionais — onde o componente inferencial é o mais importante. Na segunda direção desta pesquisa, estudamos os recursos linguisticos e sistemas das áreas de Linguistica Computacional (LC) e Processamento de Linguagem Natural (PLN) com o objetivo de delimitar um quadro conceitual de como os sistemas ordinários expressam e computam significados. 0 modelo da Semântica Computacional, tradicional em PLN, preconiza que (i) é suficiente uma representação do mundo para definir o valor semântico dos termos e sentenças em linguagem natural; e (ii) há uma equivalência entre a sintaxe e a semântica das línguas naturais. Como resultado da pesquisa, propomos um novo modelo computacional para expressão e raciocínio semântico em sistemas de linguagem natural — o Modelo Semântico Inferencialista (SIM). SIM se baseia na Teoria Semântica Inferencialista, de Robert Brandom. Defendemos a ideia que um sistema computacional, para responder a perguntas, extrair e recuperar informações, refutar argumentos, justificar respostas ou dar explicações sobre um texto, dentre tantas outras aplicações, deve: (i) expressar o conteúdo inferencial de conceitos e sentenças (precondições e pós-condições de uso); e (ii) manipular este conteúdo inferencial dentro do fluxo de raciocínio. As bases semânticas do SIM foram construídas e formaram o primeiro recurso linguistico, em larga escala e para a lingua portuguesa, com conteúdo inferencialista — InferenceNet.BR. O algoritmo para raciocínio semântico — SIA — e o recurso InferenceNet.BR foram aplicados em um sistema real de extração de informações sobre crimes — o Extrator de Informações para WikiCrimes (WikiCrimeslE). Os resultados da extração foram avaliados e suplantaram o estado da arte dos principais sistemas que executam tarefas de entendimento de linguagem natural, inclusive para a lingua inglesa. 0 maior legado desta pesquisa é ter lançado uma semente para pesquisas em Semântica Computacional Inferencialista, as quais, acreditamos, permitirão um caminho evolutivo mais sólido e frutífero para a área de Linguistica Computacional.
Abstract:	Computer processing of natural language is one of the major challenges in the area of Artificial Intelligence. There is an urgent need for computational systems that can help us process the overwhelming quantity of non-structured information that is present in natural language. Driven by this need, we studied various philosophies of language in order to understand what a linguistic expression consists of, or at least what reponses (borrowed from Philosophy) can make it possible for computer systems to address the needs and challenges in an effective way. For representationalist theories, concepts are things (or the state of affairs) represented by words and linguistic expressions. Therefore, there is the idea of a single and regular world—an inductive world. Pragmatic philosophies, such as that of Wittgenstein, define a new concept of "concept": the content of a concept consists of its various uses in language games. Concepts can be defined and understood based on the practice of applying concepts in situations of language use. Inferentialist philosophers such as Sellars, Dummett and Brandom incorporate the project of a semantic theory by presenting a reduction of the pragmatic approach to the uses of concepts in rational games, where the inferential component is the most important. In the second part of this research, we study linguistic resources and systems in the fields of Computational Linguistics and Natural Language Processing (NLP) in order to define a conceptual framework for the way that ordinary systems express and compute meanings. The model of the Computational Semantics—a traditional model in NLP—proposes that (i) one representation of the world is sufficient to define the semantic value of terms and sentences in natural language; and (ii) there is equivalence between the syntax and the semantics of natural languages. As a result of our research, we propose a new computational model for expression and semantic reasoning in natural language systems—the Semantic Inferentialism Model (SIM). SIM is based on Robert Brandom's Semantic Inferentialism Theory. We advocate the idea that in order for a computational system to answer questions, extract and retrieve information, refute arguments, justify answers, or give explanations about a text, among many other applications, it must: (i) express the inferential content of concepts and sentences (pre-conditions and post-conditions of use); and (ii) manipulate this inferential content within the flow of reasoning. The semantic bases of SIM were constructed and have formed the first large-scale linguistic resource for the Portuguese language with inferentialist content—InferenceNet.BR. The semantic reasoning algorithm (SIA) and the InferenceNet.BR resource were applied in a real system for extracting information on crime—the WikiCrimes Information Extractor (WikiCrimesTE). The results of the extraction were evaluated and superseded the state of the art of the foremost systems that execute tasks of understanding natural language, even for the English language. The greatest legacy of this research was to have planted a seed for research in Inferentialist Computational Semantics, which we believe will allow a more solid and fruitful evolutionary path for the field of Computational Linguistics.
URI:	http://www.repositorio.ufc.br/handle/riufc/61242
Aparece nas coleções:	DCOMP - Teses defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2010_tese_vcmpinheiro.pdf		40,1 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas