JSON UMA ALTERNATIVA PARA CORPUS LINGUÍSTICO ANOTADO EM PADRÃO XML

Revista Binacional Brasil-Argentina

Endereço:
Praça Sá Barreto - s/n - Centro
Vitória da Conquista / BA
45000625
Site: http://periodicos2.uesb.br/index.php/rbba/index
Telefone: (77) 3421-3894
ISSN: 2316-1205
Editor Chefe: José Rubens Mascarenhas de Almeida
Início Publicação: 30/06/2012
Periodicidade: Semestral
Área de Estudo: Ciências Agrárias, Área de Estudo: Ciências Biológicas, Área de Estudo: Ciências da Saúde, Área de Estudo: Ciências Exatas, Área de Estudo: Ciências Humanas, Área de Estudo: Ciências Sociais Aplicadas, Área de Estudo: Engenharias, Área de Estudo: Linguística, Letras e Artes, Área de Estudo: Multidisciplinar

JSON UMA ALTERNATIVA PARA CORPUS LINGUÍSTICO ANOTADO EM PADRÃO XML

Ano: 2019 | Volume: 8 | Número: 1
Autores: A. S. Costa, B. S. Costa, R. P. Damaceno, C. Namiuti, J. V. Santos
Autor Correspondente: A. S. Costa | [email protected]

Palavras-chave: Corpus Anotado, JSON, XML

Resumos Cadastrados

Resumo Português:

Para as investigações em Linguística nas Humanidades Digitais, sobretudo para a formulação de hipóteses sobre gramáticas nos estudos  de  Linguística  Histórica,  necessita-se  de  um  grande volume   de   dados,  fato  que intensificou a construção e implementação de corpora anotados que crescem  em  tamanho exigindo maior grau de escalabilidade. Neste artigo discute-se a viabilidade técnica de uma solução computacional alternativa à linguagem  XML  (eXtensible  Markup  Language)  para  corpora linguísticos anotados. A linguagem XML tem sido utilizada em vários corpora que se baseiam no Corpus anotado do português histórico Tycho Brahe (CTB), como  o Corpus de Documentos Oitocentistas  de  Vitória  da  Conquista (DOViC) e o Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS). A linguagem XML pode apresentar problemas  de  performance para grande volume de dados, além de alto custo de memória. O crescimento de bancos de dado   não relacionais com características  de  alta  flexibilidade e performance,  associado aos potenciais problemas  de  desempenho  da  anotação  XML, motivou  uma  pesquisa  de  viabilidade  técnica  de  uma  solução computacional  alternativa  para  representação  e armazenamento atual  dos  textos  do corpus DOViC em um banco de dados NoSQLno   formato   JSON   (JavaScript Object Notation) (MONGODB,  2008).  A  pesquisa  aqui  apresentada  verifica  a viabilidade  da  representação, compara a performance  obtida  em buscas morfossintáticas feitas na  anotação proposta (Banco de dados NoSQL e formato JSON) com a anotação e armazenamento atual do corpus DOViC (Sistema de arquivos e formato   XML), e faz   uma   análisede   outros   aspectos da proposta. Os resultados obtidos no tocante à performance da proposta JSON indicam viabilidade técnica dessa vertente computacional. Não  obstante,  para  além  da  performance,  oXML apresenta maiores vantagens de interoperabilidade por ser amplamente aceita como padrão para anotação de corpora.



Resumo Espanhol:

Para   las   investigaciones   en   Lingüística   en   Humanidades Digitales, especialmente para la formulación de hipótesis sobre las  gramáticas  en  los  estudios  de  Lingüística  Histórica,  se requiere un gran volumen de datos, un hecho que intensificó la construcción  e implementación de los corpora anotados que crecen   en   tamaño   y   requieren   mayor escalabilidad. Este documento   analiza   la   viabilidad   técnica   de   una   solución computacional    alternativa    al XML    (eXtensible    Markup Language) para corpora lingüísticos anotados. El lenguaje XML  se  ha  utilizado  en  muchos corpora que se basan en el corpus anotado del portugués histórico  Tycho  Brahe  (CTB), como  el Corpus  de  Documentos  Oitocentistas  de  Vitória  da Conquista  (DOViC)  y  el  Corpus  Eletrônico  de  Documentos Históricos  do  Sertão  (CE-DOHS). El  lenguaje  XML  puede presentar  problemas  de  rendimiento  para  grandes  datos,  así como un alto costo de memoria. El crecimiento de las bases de datos  no  relacionales,  con  alta  flexibilidad  y  características  de rendimiento,  asociadas  con  posibles  problemas  de  rendimiento de  la  anotación  XML,  motivó  un  estudio  de  viabilidad  técnica de una solución computacional alternativa para la representación  y  el  almacenamiento  actual  de  textos  de corpusDOViC.  Base  de  datos  NoSQL  en formato JSON  (JavaScript Object    Notation) (MONGODB,    2008).    La    investigación presentada  aquí  verifica  la  viabilidad  de  la  representación,compara     el     rendimiento     obtenido     en     las     búsquedas morfosintácticas   realizadas   en   la   propuesta   (base   de   datos NoSQL    y    formato    JSON)    con    la    actual    anotación    y almacenamiento  del corpus DOViC (sistema de archivos y formato  XML),  y  hace  un  análisis  de  otros  aspectos  de  la propuesta. Los resultados obtenidos con respecto al rendimiento de  la  propuesta JSON indican  la  viabilidad técnica  de  easpecto  computacional. Además del rendimiento, XML tiene importantes    ventajas    de    interoperabilidad,    ya    que    es ampliamente  aceptado  como  el  estándar  para  la  anotación  de corpus