“Et veritas liberabit vos”
  • Início
  • Economia e liberdade
  • ABC & XYZ

Contagem de páginas em traduções diferentes de um mesmo livro

17/11/2012

0 Comments

 
Um amigo do Facebook, Bruno, deparou-se com um problema. Estava lendo um livro traduzido do alemão e sentiu a necessidade de ler o trecho do capítulo em que estava no original. Aí, vem a pergunta clássica: meu trecho está na página 85 da tradução em português. Qual é a página em que está no original?
Várias considerações entram em jogo. Primeiro, o tamanho da letra, depois, o tamanho da folha, a diferença das palavras (um simples “até logo” em alemão fica auf Wiedersehen), e, por fim, até as próprias escolhas estéticas do editor (por exemplo, se cada capítulo começa numa página nova, se deve começar sempre numa página ímpar). Como vencer isso?
Meu amigo chegou com uma proposta interessante: aproximações sucessivas. Por esse raciocínio, ele viu em que páginas ficava o início do 1.º capítulo e em que página ficava a última palavra do livro. Por uma simples divisão proporcional, achou em que página do original ficaria determinada palavra da tradução. É claro que o resultado não deu certo (por causa dos diversos problemas citados acima), mas a aproximação ficou boa.
O que fez o método dele ficar legal foi que, cada palavra nova cuja localização ele descobria em ambas as versões se tornava mais um subsídio ao seu cálculo. De acordo com sua própria descrição, bastava fazer uma coluna de páginas da tradução e uma coluna com as correspondentes páginas (já conhecidas) do original. Ao fazer uma interpolação pelo MS Excel, cada nova iteração trazia resultados cada vez melhores.
Vou, então, com autorização dele (heheheheheh…), fazer uma apresentação de por que o método funciona, e como dá para ter, de cara, uma aproximação desde a primeira vez. Antes, como se faz em textos “científicos”, uma introdução teórica.

Reta a partir de dois pontos
Imagine que x seja o número da página em que está o trecho numa versão X, e y o número da página em que o mesmo trecho está em outra versão Y. O que pretendemos é achar uma equação que atribua cada x ao seu y. Com o objetivo de se manter simples, vamos buscar uma relação linear, o que implica uma relação de 1.º grau dada por equação da forma y = ax + b.
Se começar com duas correspondências (como o Bruno), podemos tomar dois pontos num plano cartesiano da forma (x1 ; y1) e (x2 ; y2). No plano, eles poderiam ficar (no exemplo, temos (5;6) e (271;224):
Picture
A projeção de uma função linear que ligue esses dois pontos é um tanto simples. Para um ponto hipotético (x* ; y*), uma vez conhecido o valor de x*, para achar y* basta fazer a relação:
(y2 – y*)/(y2 – y1) = (x2 – x*)/(x2 – x1)

Resolvendo a equação para y*, temos:
y* = y2 + (x* – x2)(y2 – y1)/(x2 – x1)

Isso equivale a localizar o ponto que tem abscissa x* sobre a reta que liga os dois pontos da figura anterior, como segue (o terceiro ponto marcado é o que tem x* = 100, que corresponde a y* = 83,86):
Picture
Isso nos faria buscar o trecho no fim da página 83, início da página 84 da versão Y. Suponhamos que o trecho esteja na página 90 da versão Y. Agora, sabemos que a equação não servirá, pois há fatores que não tornam a correspondência exatamente linear. Como fazer a previsão da página y* correta em outros trechos, uma vez sabendo que o ponto (100;90) agora faz parte de nosso universo conhecido?

Regressão linear
Antes de continuar, vamos convencionar algumas notações simplificadoras, para que nossas fórmulas não fiquem muito monstruosas. Considere que temos um conjunto de pontos dados na forma (x ; y), da seguinte maneira:
{(x1 ; y1);(x2 ; y2);(x3 ; y3)… (xn ; yn)}

Nesse caso, indicaremos a média dos valores de x por μ(x), e a média dos valores de y, por μ(y), de forma que:
μ(x) = Σ(x)/n
μ(y) = Σ(y)/n

Também, para efeito de simbologia, vamos estabelecer as seguintes notações:
Σ(x2) = soma dos quadrados de x
Σ(xy) = soma dos produtos de cada x por seu respectivo y

Uma vez definidas essas somas e médias, podemos estabelecer os seguintes símbolos, de uso comum na Estatística Inferencial:
Sxx = Σ(x2) – n (μ(x))2
Sxy = Σ(xy) – n μ(x) μ(y)

Agora, imagine que os n pontos sejam marcados no plano cartesiano. Obteremos a chamada nuvem de dispersão, que tem um aspecto semelhante ao seguinte:
Picture
Da mesma forma, tentaremos passar uma reta que represente todos esses pontos. É claro que não é possível passar uma reta exatamente por todos os pontos. Assim, deve-se estabelecer um critério para escolha da “melhor reta”. Esse critério é conhecido como mínimos quadrados, e remete ao fato de que, dada a equação da reta aproximada (conforme a figura seguinte) y = ax + b, se aplicarmos cada valor x1, x2… à equação, encontraremos valores aproximados de y cuja distância dos valores reais são as menores possíveis (no caso, para ter as menores possíveis, toma-se a menor soma dos quadrados dos erros; daí o nome de “mínimos quadrados”).
Picture
Para determinar a reta, achamos o valor dos parâmetros a e b por meio das fórmulas:
a = Sxy/Sxx
b = μ(y) – a μ(x)

Nesse momento, você deve estar pensando: “Fazer isso tudo só para procurar páginas numa tradução? Prefiro procurar uma por uma!”. E, realmente, é melhor, mesmo. Por isso, para fazer a busca, usamos um recurso computacional oferecido pelo programa MS Excel, cuja formulação passo a explicar.

A função “PREVISÃO” do MS Excel
Esses métodos são usados até hoje para fazer previsões. É claro que muitos outros fatores entram em jogo quando se analisam variáveis que têm interdependência, ou mesmo que tenham algum cunho sociopolítico. P. ex., é possível usar a regressão linear para encontrar uma correlação entre a altura das marés e o preço de uma cesta de ações de alguma bolsa de valores, mas será que essa correlação é justificada por alguma teoria? É exatamente isso que falta, muitas vezes, em analistas que parecem ter uma bola de cristal…
Ferramentas computacionais surgem conforme a tecnologia avança. Assim, o MS Excel, que é uma ferramenta de planilhas eletrônicas (tabelas que realizam cálculos), possui uma função que calcula a previsão de y para um dado x, considerando conhecidos alguns pares de (x ; y). Para resolver nosso problema, podemos proceder assim:
1) Coloque, na primeira linha, nas células A1 e B1, os títulos das versões que você tem disponíveis (ALEMÃO e PORTUGUÊS, p. ex.).
2) Arranje o maior número de correspondências entre trechos que você tiver. Algumas que sempre funcionam são a primeira página de cada versão, a última página de cada versão, e as páginas iniciais de cada capítulo (o início do 1.º capítulo alemão com o início do 1.º capítulo português, o início do 2.º alemão com o início do 2.º português, e assim por diante). Se o livro tem oito capítulos, sua tabela terá, além do título, 10 linhas, ou seja, seus dados irão de A2 até B11.
3) Abaixo da última linha que você preencheu no MS Excel, escreva a página que você conhece com certeza na versão que está lendo (por exemplo, uma palavra que está na p. 120 na alemã). No nosso caso, o número 120 irá na célula A12. Para achar a localização na versão portuguesa, basta colocar, na célula B12, a seguinte fórmula:
=PREVISÃO(A12;B2:B11;A2:A11)

A ordem importa: no primeiro argumento da função, coloca-se o valor conhecido cuja correspondência se quer conhecer. No segundo argumento, a coluna de valores do idioma-meta. No terceiro argumento, a coluna dos valores do idioma-fonte (o conhecido, o que tem a p. 120 no nosso exemplo).
Pronto. Assim, fica exposta a teoria que explica a previsão. Eventuais erros sempre vão acontecer, devido aos fatores já mencionados. Mas, quanto mais pares forem conhecidos, mais esses fatores vão sendo considerados na média da reta de previsão, e mais acertada deve ser sua previsão. Boa leitura!
0 Comments

Viva a língua portuguesa! (parte I)

4/9/2012

0 Comments

 
Estou numa reunião e ouço o interlocutor dizer uma palavra já conhecida, mas num contexto inusitado. Ele diz que “a diretoria já está endereçando o problema”. Hmmm… O interessante é que havia uns dois dias eu tinha ouvido no rádio um pesquisador da FGV dizendo que o Governo precisava “endereçar a questão da dívida”, ou algo parecido. Que coisa!
Até onde eu conheço o vernáculo “endereçar” significa “enviar a um endereço”. Quando o cara da reunião quis “endereçar” o problema, será que ele queria colocar o problema num envelope e enviar para algum lugar? Claro, isso é provavelmente resultado da expressão inglesa “address the issue”. Com efeito, a palavra address significa “endereçar”. Mas, no contexto da expressão dada, ela toma outro sentido. Em bom português, seria algo como “abordar o problema”, “tratar o problema”. Donde vem a pergunta: para que criar um sentido que não existe para uma palavra já bem conhecida e estabelecida em nossa língua???
Considerando a amplitude que o gerundismo tomou, quando de sua nacionalização pelos ignorantes tupiniquins, podem-se preparar para ver muitos prefeitos e vereadores “endereçando o problema do saneamento básico, da educação básica”…
0 Comments

Capitão América das militâncias

12/7/2012

0 Comments

 
Picture
E eis que me deparo com a figura aí do lado. Não pude resistir. Sempre me incomodou essa estupidez militante (bom, uma dessas duas últimas palavras poderia desaparecer sem mudar o sentido da frase) de querer “tirar o direito” dos Estados Unidos de chamar-se “América”. Alegam nossas mulinhas o que a figura guevariana espalhafatosa diz: “América é o nome do continente, e americano é o habitante; o país é Estados Unidos, e quem mora lá é estadunidense”.
Por que digo que isso é estupidez? Há duas boas razões. A primeira é clara: você só lê “estadunidense” em textos de autores esquerdistas; logo, é um claro indicador de ignorância de per se. Claro, muitos dicionários hoje costumam colocar a palavra como adjetivo pátrio aplicável aos EUA paralelamente a “americano”, mas isso porque dicionários acabam cedendo ao uso, não porque esteja necessariamente certo.
A segunda razão é mais complexa, e quem é de esquerda nem precisa ler, porque não vai entender; não vou falar de luta de classes nem de imperialismo, então o vocabulário é meio estranho, podem voltar às suas “militanssas”… Vamos começar por onde conhecemos: você sabe o nome completo do Brasil? É “República Federativa do Brasil”. A expressão “República Federativa” indica a forma de governo (república) e a organização do Estado (federação) pretendida pela Constituição. Assim é, por exemplo, com “República Democrática do Congo”, “República Oriental do Uruguai” (onde “oriental” é só a posição em relação às demais colônias espanholas, à época da colonização), “Reino da Noruega” e todos os países. O nome do país, mesmo, é, em geral, o último (Brasil, Congo, Uruguai). Até aqui ficou claro, né?
Bem, a mesmíssima coisa ocorre com os Estados Unidos da América: “Estados Unidos” não é o nome do país, apenas a forma de organização do país. Como ocorre com os demais, o nome do país é… tchã-tchã-tchã-tchã… América! Conseqüentemente, quem nasce lá é… adivinha, vai… americano, isso mesmo!
Sabe, fica parecendo tão besta a pessoa de fora que vai corrigir um americano sobre o nome do seu próprio país! E quer ver o mais engraçado? O Brasil se chamou “Estados Unidos do Brasil” desde a fundação da república até a constituição militar de 1967. Ou seja, meu pai e minha mãe, na cabeça oca das militâncias de esquerda, nascidos em Minas Gerais e São Paulo na década de 1950, são estadunidenses, também…
Mas tudo bem… pegue um cara que luta por igualdade entre todos os homens, que luta contra o capitalismo selvagem, que tem a cara-de-pau de dizer que o Estado deve fornecer educação básica às pobres crianças do nosso país; querer que esse cara saiba história e entenda o que significa “Estados Unidos da América” é demais, né? Quando ele estudou MST 1, MST 2 e MST 3 na faculdade de Sociologia, ninguém ensinou isso para ele, oras!

0 Comments

Sobre o acordo “desortográfico”

23/6/2012

0 Comments

 
A Folha publicou, na última quinta (21 jun.), um texto do Pasquale Cipro Neto sobre o acordo ortográfico analfabeto que “rege” nossa língua atualmente. A única coisa em que nos diferenciamos é que ele chama o tal de “(des)acordo ortográfico”, enquanto eu prefiro “acordo desortográfico”. E ele obedece às regras do acordo, coisa de que me abstenho em meus textos pessoais, como protesto. Ademais, faço minhas as palavras dele. Leiam abaixo.
“O leitor habitual deste espaço sabe que não ‘frequento’ (nem tenho) Twitter, Facebook etc.. Foi um dos meus filhos quem me cantou a bola sobre uma frase postada há duas ou três semanas por bombeiros no Facebook (ou terá sido no Twitter?). Era algo como ‘Acidente na rua X, acidente na rua Y, mas nada para os bombeiros’.
“Como entender esse
‘para’ pós-(Des)Acordo Ortográfico? Como verbo? Ou como preposição? Os mais afoitos talvez digam que esse ‘para’ é verbo, já que, depois que se apresenta uma sequência de atividades para as quais normalmente se convocam os bombeiros, diz-se que nada é capaz de detê-los, ou seja, nada para (interrompe) os bombeiros.
“O problema é que, salvo engano, o contexto era irônico. Tratava-se de uma queixa, uma reclamação, em que os bombeiros diziam que a carga de trabalho é pesada, mas, em contrapartida, nada se dá ou oferece a eles (para eles).
“O fato é que, passados já três anos e meio da entrada em vigor (no Brasil, só no Brasil) do
‘(Des)Acordo Ortográfico’, ainda somos surpreendidos por casos e casos em que não pensáramos e que nos provam que essa bobajada é mesmo uma grande bobajada, um delírio sem fim. Quem terá sido o gênio a decretar que é desnecessário diferenciar com um acento a forma verbal ‘para’ da preposição ‘para’, sob o tosco argumento de que o contexto define e deixa claro para o leitor o valor do termo em questão? Quem terá sido, Santo Deus? E o contexto ‘deixa claro’ quando? De imediato? Ou só depois da leitura de linhas e linhas?
“Bem, caro leitor, pela segunda vez no ano (creio) volto a tratar de mais uma das grandes mazelas do ‘(Des)Acordo Ortográfico’ porque quero que você saiba que há e haverá pedras no caminho dos ‘acordistas’. Explico: estão em curso ações judiciais contra o bendito ‘(Des)Acordo’.
“Uma dessas ações, que está na 9.ª Vara da Justiça Federal em Brasília, é do professor Ernani Pimentel, que pede ‘o adiamento do prazo final de implantação do Acordo Ortográfico no Brasil, até que o Congresso Nacional se pronuncie sobre as alterações feitas ao Acordo pela ABL. O Decreto Presidencial que promulga o Acordo reza que “São sujeitos à aprovação do Congresso Nacional quaisquer atos que possam resultar em revisão do referido”, o que foi desrespeitado pela ABL’.
“Pimentel diz que uma segunda ação questionará ‘as alterações propostas e a maneira antidemocrática e anticientífica das decisões’. No site www.acordarmelhor.com.br há mais informações.
“Faço aqui uma paródia do que Chico Buarque sempre diz sobre a relação dele com a ditadura militar. ‘A ditadura encheu muito o meu saco, mas eu também enchi bastante o saco deles’, diz o grande Mestre. A relação que alguns colegas e eu temos com o ‘(Des)Acordo’ é meio parecida com a que Chico teve com a ditadura. O percurso do ‘(Des)Acordo Ortográfico’ no Brasil, além de ditatorial, foi irresponsável, infantil e infantiloide — uma perfeita birra de criança que quer porque quer o que quer. No Senado, em abril, Pimentel e eu pudemos expor todos os absurdos registrados nesse percurso.
“Agora é esperar para ver o que farão a Justiça e o Congresso. É isso.”
0 Comments

Desconhecimento sobre probabilidades e políticas públicas: combinação nefasta

14/6/2012

0 Comments

 
Com a história do filho do cantor Leonardo (Pedro, eu acho), voltou com tudo aquela bobagem da lei seca, das blitze, inclusive com o cantor fazendo propaganda para desestimular as pessoas a dirigir depois de beber. É claro, a campanha é totalmente válida, mas temos de lembrar duas coisas ao fazer uma análise mais aprofundada. Vamos lá.

Probabilidade de causar acidentes ao dirigir após beber
Grande parte das campanhas contra dirigir alcoolizado se baseia em estatísticas como a da manchete hipotética que segue: “90% dos acidentes automobilísticos envolvem motoristas bêbados”. Sem questionar a confiabilidade de qualquer estatística que seja (já que nenhuma é confiável, qualquer pessoa que estudou Estatística a sério sabe isso), o que essa frase quer dizer? Ora, ela quer dizer que, de cada 100 acidentes pesquisados, 90 envolveram motoristas bêbados. Ah, então significa que dirigir alcoolizado aumenta a chance de acidentes, certo? NÃO! Mais errado do que qualquer outra coisa poderia estar!
Como assim? Ora, a primeira questão está na relação de causalidade. É a famosa falácia post hoc, ergo propter hoc — “X ocorreu depois de Y, logo X é causado por Y”. Não há como dizer que, porque um acidente ocorreu depois de uma bebedeira, ele tenha ocorrido por causa da bebedeira. Além da falácia lógica, há ainda o mau uso do conceito de probabilidade.
Bayes estabeleceu, em seus estudos sobre probabilidades, a influência de você já conhecer de antemão algum fato sobre o experimento aleatório em estudo. Por exemplo, se P(A) é a probabilidade de ocorrer um evento A, podemos dizer que a probabilidade de ocorrer A, sabendo que B ocorreu, será possivelmente diferente, e a indicamos por P(A|B). Assim, p. ex., se eu lançar um dado comum e honesto, com faces numeradas de 1 a 6, e lhe perguntar qual a probabilidade de sair um número divisor de 12, você dirá, se souber o que é um divisor, que é de 5/6. Agora, se eu lhe adiantar que o resultado é maior que 2, você acrescentou uma informação ao seu conjunto prévio. Se estivesse fazendo apostas baseado nesse resultado, você não contaria com uma probabilidade de 5/6 de ocorrer um divisor de 12. Considerando que o resultado é maior que 2 (ou seja, está no conjunto {3;4;5;6}), e que há três divisores de 12 nessa condição, você já contaria com uma probabilidade de 3/4 de sair um divisor de 12. Ou seja, a probabilidade do evento “divisor de 12” é diferente da probabilidade do evento “divisor de 12, sabendo que é maior que 2”.
E mais: a probabilidade de ser “divisor de 12, sabendo que é maior que 2” é diferente da probabilidade de ser “maior que 2, sabendo que é divisor de 12”. Enquanto a primeira é 3/4, a segunda é 3/5. Ou seja, apesar de poderem ocorrer coincidências, em geral, P(A|B) ≠ P(B|A). E o erro de quem defende a lei seca com base na estatística da manchete que citei acima é exatamente considerar iguais essas probabilidades. Veja por quê.
Motivadas por uma militância tolhedora de liberdades e por uma imprensa politicamente correta (e, portanto, burra), as pessoas comuns entendem a medida “90% dos acidentes envolvem bêbados” como sendo “a probabilidade de ocorrer acidente estando o motorista bêbado é 90%” (ou seja, a pessoa comum entende P(A|B) = 90%). A realidade, porém, é que a notícia apenas informa é que “a probabilidade de haver um motorista bêbado, ocorrido o acidente, é 90%” (ou seja, a realidade é P(B|A) = 90%). A diferença é sutil, mas a interpretação errônea é perigosa. Na verdade, é possível montar um exemplo hipotético exatamente com essa manchete, e provar que dirigir bêbado é muito mais seguro que dirigir sóbrio.
Suponha que, numa pequena cidade, num sábado à noite, em que houve uma festança de arromba, a estatística de acidentes se realizou exatamente como prevista na manchete: houve 10 acidentes, em 9 dos quais se envolveu um motorista bêbado (poderia ser os dois, mas isso incluiria uma complicação a mais na análise, e não atrapalharia meu argumento). Mas ocorre que, naquela noite, saindo da festa, havia 200 motoristas, sendo 190 bêbados e 10 sóbrios. Ora, isso significa que, de 190 bêbados, 9 se envolveram em acidentes; a probabilidade de se envolver em acidente, estando bêbado, nessa estatística, é de 9/190, menos de 5%. Já a probabilidade de se envolver em acidente, estando sóbrio, é de 1/10, ou seja, 10%, mais que o dobro da probabilidade caso o motorista estivesse bêbado. Ou seja, se for dirigir, beba!
É claro que este último conselho não é sério, e é claro que esses números foram colocados por mim apenas para este exemplo. Mesmo que fossem reais, não seriam suficientes para estabelecer probabilidades. Mas os eventos descritos não são impossíveis de ocorrer. Na verdade, qualquer julgamento sério sobre o perigo de dirigir embriagado deveria medir não a quantidade de acidentes que envolvem bêbados, mas a quantidade de bêbados que se envolvem em acidentes, o que é bem mais complicado.

A ditadura do politicamente correto
O problema é que a interpretação errada favorece a galera inimiga das liberdades. Ora, para que ensinar a população a interpretar corretamente as probabilidades, se a ignorância ajuda a tirania politicamente babacacorreta a impor-se?
No fim, a má interpretação dos números acaba por ajudar aquelas pessoas, portadoras do “bichinho totalitário”, que pensam que seus ideais de comportamento são tão perfeitinhos, tão adequados que devem ser impostos a toda a sociedade. Esses portadores não entendem que o dirigir bêbado não é crime — e não me venham com o formalismo burro de alguns rábulas dizendo que, “se está na lei, é crime”; falo aqui do ponto de vista normativo, não positivo. “Ah, mas dirigir bêbado aumenta as chances de causar acidentes e ferir outras pessoas!” Bom, a não ser que se apresentem pesquisas com estatísticas calculadas da maneira correta, esse argumento não é válido. E mais: ferir outras pessoas, realmente, é um crime de agressão, mas apenas se as outras pessoas forem efetivamente feridas. Veja, se eu dirigir bêbado, bater meu carro e matar uma família inteira, deverei ser (e serei) processado por assassinato, podendo até ser agravada a acusação por estar embriagado; mas eu teria efetivamente matado a família em questão. Agora, parar o cidadão na rua, obrigá-lo a colocar a boca num aparelho porco, malcuidado (afinal, se hospitais públicos têm o tratamento que têm em relação à limpeza, você acha que a polícia vai cuidar do “bafômetro” com a higiene necessária?) e prendê-lo, proibindo-o de dirigir por um tempo porque ele poderia ter causado um acidente… sinto muito, é muito Minority Report na minha opinião. É penalizar um provável criminoso por um crime que ele não cometeu. E, com todo o respeito que os agentes públicos não merecem, a capacidade que a polícia tem hoje de “prever a ocorrência de um crime” baseada no seu arcabouço de conhecimento científico e empírico está milhões de quilômetros longe do que os precogs (ou mesmo os policiais comuns) do filme tinham.
Sejamos realistas: a lei está aí, foi aprovada, mas não passa de mais uma ferramenta estatal para amarrar o cidadão, para amedrontar a sociedade, tolher-lhe a liberdade. E pior: sem base científica e estatística nenhuma, já que a base apresentada é toda falaciosa. Esse é o Estado que existe para cuidar do bem-estar geral da sociedade…
0 Comments
Forward>>

    Autor

    Cristão, economista, professor de matemática e libertário. Isso basta.

    Arquivo

    December 2014
    November 2014
    June 2014
    September 2013
    December 2012
    November 2012
    September 2012
    July 2012
    June 2012

    Assuntos

    All
    Acordo
    Alfabeto
    Bayes
    Bispo
    Campinas
    Chocottone
    Contagem
    Crime
    Cuoco
    Declinação
    Djavan
    Escrita
    Esperanto
    Estados Unidos
    Feminino
    Galão
    Gramática
    Idioma
    Inglês
    Jorge Benjor
    Kiss
    Leis
    Lei Seca
    Letras
    Liberdade
    Medidas
    Mínimos Quadrados
    Ms Excel
    Neologismo
    Ortografia
    Páginas
    Português
    Português
    Previsão
    Probabilidades
    Pronúncia
    Regras
    Regressão Linear
    Scorpions
    Tonelada
    Tradução

    RSS Feed

Quis custodiet ipsos custodes?