CoGrOO

From OpenOffice.org Wiki

< ES
Jump to: navigation, search


Propuesta Economica

Abaixo segue uma lista de tarefas e recursos necessários para portar o CoGrOO para um outro idioma:

  • Licença de um Corpus anotado morfo-sintaticamente. Corpus é um conjunto grande e estruturado de textos, usado para estudo e análise estatística de um idioma (http://en.wikipedia.org/wiki/Text_corpus). É um recurso essencial para desenvolver ferramentas baseadas em treinamento estatístico, como o CoGrOO. Em português e em poucos outros idiomas há corpora (plural de corpus) bons e livres, mas em muitas línguas, como no caso do inglês, esses recursos são caros; como exemplo, podemos citar o Penn Treebank Corpus, na língua inglesa, comercializado pelo LDC, Universidade da Pensilvânia, http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 , por cerca de US$ 2.500,00 para propósitos não-comerciais).
  • Um linguista especialista na língua em questão (estima-se 250 homens-hora de trabalho). Seu trabalho consistiria em:
    • Definir o público-alvo da ferramenta (por exemplo, advogados, médicos, público em geral, etc.)
    • Estimar os 100 erros/enganos mais comuns neste público-alvo
    • Escrever regras simples, aderentes aos nossos modelos, para detectar estes erros/enganos
    • Testar estas regras em um protótipo
    • Refinar as regras
  • Desenvolvedores (estima-se 650 homens-hora de trabalho):
    • Melhorias na infra-estrutura (150 homens-hora)
      • Redesenhar o analisador de sentenças
    • Implementar a interface com o corpus anotado (100 homens-hora)
    • Gerar dicionários no idioma em questão (150 homens-hora)
      • Dicionário morfológico
      • Dicionário de primitivas
    • Projetar cada módulo do OpenNLP (150 homens-hora)
      • Projetar as características para cada módulo
      • Treinar módulos
      • Testar os módulos e ajustar as características, se necessário
    • Adaptar o mecanismo de correção (200 homens-hora)
      • Adaptar o XML schema para descrever a gramática das etiquetas nas regras de detecção de erros
      • Projetar e implementar regras para indicar desvios gramaticais em textos (juntamente com o linguista)
      • Realizar o ajuste fino nos diversos módulos do sistema


Uma boa estimativa para o valor homem-hora é de R$ 30,00 a R$ 40,00. Desta forma:

  • Licença do corpus anotado: por volta de R$ 6.000,00.
  • Linguista (aproximadamente 250 homens-hora): entre R$ 7.500,00 e R$ 10.000,00.
  • Desenvolvedores (aproximadamente 650 homens-hora): entre R$ 19.500,00 e R$ 26.000,00.


Estimativa de investimento: Entre R$ 33.000,00 e R$ 42.000,00

Personal tools
Create a book