CoGrOO
From OpenOffice.org Wiki
< ES
Propuesta Economica
Abaixo segue uma lista de tarefas e recursos necessários para portar o CoGrOO para um outro idioma:
- Licença de um Corpus anotado morfo-sintaticamente. Corpus é um conjunto grande e estruturado de textos, usado para estudo e análise estatística de um idioma (http://en.wikipedia.org/wiki/Text_corpus). É um recurso essencial para desenvolver ferramentas baseadas em treinamento estatístico, como o CoGrOO. Em português e em poucos outros idiomas há corpora (plural de corpus) bons e livres, mas em muitas línguas, como no caso do inglês, esses recursos são caros; como exemplo, podemos citar o Penn Treebank Corpus, na língua inglesa, comercializado pelo LDC, Universidade da Pensilvânia, http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 , por cerca de US$ 2.500,00 para propósitos não-comerciais).
- Um linguista especialista na língua em questão (estima-se 250 homens-hora de trabalho). Seu trabalho consistiria em:
- Definir o público-alvo da ferramenta (por exemplo, advogados, médicos, público em geral, etc.)
- Estimar os 100 erros/enganos mais comuns neste público-alvo
- Escrever regras simples, aderentes aos nossos modelos, para detectar estes erros/enganos
- Testar estas regras em um protótipo
- Refinar as regras
- Desenvolvedores (estima-se 650 homens-hora de trabalho):
- Melhorias na infra-estrutura (150 homens-hora)
- Redesenhar o analisador de sentenças
- Implementar a interface com o corpus anotado (100 homens-hora)
- Gerar dicionários no idioma em questão (150 homens-hora)
- Dicionário morfológico
- Dicionário de primitivas
- Projetar cada módulo do OpenNLP (150 homens-hora)
- Projetar as características para cada módulo
- Treinar módulos
- Testar os módulos e ajustar as características, se necessário
- Adaptar o mecanismo de correção (200 homens-hora)
- Adaptar o XML schema para descrever a gramática das etiquetas nas regras de detecção de erros
- Projetar e implementar regras para indicar desvios gramaticais em textos (juntamente com o linguista)
- Realizar o ajuste fino nos diversos módulos do sistema
- Melhorias na infra-estrutura (150 homens-hora)
Uma boa estimativa para o valor homem-hora é de R$ 30,00 a R$ 40,00. Desta forma:
- Licença do corpus anotado: por volta de R$ 6.000,00.
- Linguista (aproximadamente 250 homens-hora): entre R$ 7.500,00 e R$ 10.000,00.
- Desenvolvedores (aproximadamente 650 homens-hora): entre R$ 19.500,00 e R$ 26.000,00.
Estimativa de investimento: Entre R$ 33.000,00 e R$ 42.000,00

