Carlos A Trugenberger
A maioria dos dados massivos não é estruturada e, desta maioria, a parte mais importante é o texto. Embora as técnicas de data mining estejam bem desenvolvidas e normalizadas para dados estruturados; dados numéricos, o domínio dos dados não estruturados é ainda largamente inexplorado. O foco geral está na extração de informação, que tenta recuperar informação conhecida do texto. O graal, porém, é a descoberta do conhecimento, onde se espera que as máquinas desenterrem factos e relações inteiramente novos que não eram previamente conhecidos por nenhum especialista humano. Na verdade, a compreensão do significado do texto é geralmente considerada uma das características mais importantes da inteligência humana. O objetivo final da IA ??semântica é planear software que compreenda o significado do texto livre, no mínimo no sentido prático de fornecer informações novas e acionáveis ??condensadas de um conjunto de documentos. Como trampolim no caminho para a visão actual, poderei introduzir uma abordagem completamente nova à investigação sobre medicamentos, nomeadamente a de identificar informação relevante através do emprego de um motor semântico auto-organizado para extrair textos de grandes repositórios de artigos de investigação biomédica, uma forma pioneira da Merck com o software InfoCodex. Descreverei a metodologia e uma primeira experiência bem-sucedida para a descoberta dos mais recentes biomarcadores e fenótipos para a diabetes e obesidade com base em resumos da PubMed, ensaios clínicos públicos e documentos internos da Merck. A abordagem reportada mostra-se muito promissora e tem potencial para impactar fundamentalmente a investigação farmacêutica, como a forma de reduzir o tempo de colocação no mercado de novos medicamentos e para o reconhecimento precoce de becos sem saída. A compreensão da linguagem escrita é um componente chave da inteligência humana. Da mesma forma, fazer algo útil com grandes quantidades de documentos de texto que estão fora do alcance da análise humana requer, inevitavelmente, alguma forma de inteligência artificial [5]. É por isso que lidar com dados não estruturados é mais difícil do que analisar a sua contraparte numérica, para a qual estão prontamente disponíveis métodos matemáticos bem definidos e desenvolvidos. Na verdade, ainda não existe uma abordagem padrão para a mineração de texto, a contrapartida não estruturada da mineração de dados. Existem várias abordagens para ensinar uma máquina a compreender texto [6-8]. A grande maioria das pesquisas e aplicações centra-se em técnicas de processamento de linguagem natural (PLN) para extração de informação (IE). A extração de informação visa identificar menções a entidades nomeadas (por exemplo, “genes” em aplicações de biociências) e relações entre essas entidades (como em “é um” ou “é causado por”). As entidades e as suas relações são frequentemente designadas por “triplas” e as bases de dados por triplas identificadas por “lojas triplas”. Estas lojas triplas são a ideia da visão online 3.0, durante a qual as máquinas estarão prontas para reconhecer automaticamente o significado dos documentos online e, correspondentemente, interagir de forma inteligente com os utilizadores finais humanos.As técnicas de IE são também a principal ferramenta utilizada para selecionar terminologias e ontologias específicas de domínio extraídas de grandes corpora de documentos. A extração de informação, no entanto, não é pensada para descoberta. Pela sua própria concepção, limita-se a identificar relações semânticas que são explicitamente lexicalizadas num documento: por definição, estas relações são conhecidas pelo especialista humano que as formulou. O “Santo Graal” [9] da mineração de texto é, em vez disso, a descoberta de conhecimento a partir de grandes corpora de texto. Aqui espera-se que as máquinas gerem novas hipóteses, descobrindo correlações anteriormente despercebidas a partir de informação distribuída em grandes conjuntos de documentos. Estas hipóteses devem então ser testadas experimentalmente. A descoberta do conhecimento trata de desenterrar informação implícita versus as relações específicas recuperadas pela extração de informação. O presente artigo é sobre a descoberta de conhecimento de máquina na literatura biomédica e farmacogenómica.
Biografia:
Carlo A Trugenberger obteve o seu doutoramento em Física Teórica em 1988 no Instituto Federal Suíço de Tecnologia, Zurique e o seu mestrado em Economia em 1997 na Universidade Bocconi, Milão. Uma carreira académica internacional em física teórica (MIT, Laboratório Nacional de Los Alamos, CERN Genebra, Instituto Max Planck de Munique) levou-o ao cargo de Professor Associado de Física Teórica na Universidade de Genebra. Em 2001, decidiu abandonar a academia e explorar a sua experiência em Teoria da Informação, Redes Neurais e Inteligência de Máquinas para conceber uma tecnologia semântica inovadora e foi cofundador da empresa InfoCodex AG-Semantic Technologies, Suíça.