sua freqüência envolve diversos fatores, como o meio social, contextos, preferências pessoais,
entre outros (MESSELAAR, 1988).
Há mais de 30 anos, para a elaboração do primeiro dicionário de freqüência do
português (DUNCAN, 1972), foi estabelecido como 20 o limiar mínimo de ocorrência para
uma palavra ser considerada freqüente. Mas, ainda aqui, tratava-se de lexias simples ou
compostas, não de lexias complexas.
Os estudos de Colson (2003), no entanto, retomando proposições de Moon (1998),
felizmente nos esclarece o seguinte:
A Lingüística de Corpus oferece um padrão útil para medir a freqüência idiomática: o
número de ocorrências por milhão de palavras (PMW, em inglês). Muitos idiomatismos
verbais do inglês, do francês e do holandês (e provavelmente de todas as línguas
européias) apresentam uma freqüência de menos que 1 PMW, ou seja, sua ocorrência no
corpus é inferior a um, em um milhão de palavras. Vale saber que um corpus de um
milhão de palavras corresponde, aproximadamente, ao texto de dez romances
(COLSON, 2003, p. 47)!7
Ainda de acordo com Colson (2003), 70% das EIs frasais têm freqüência inferior a 1
PMW e os pesquisadores não conseguem detectar muitos idiomatismos comuns nos bancos de
corpora eletrônicos tradicionais. E conclui:
Idiomatismos, como um todo, costumam ser muito freqüentes em qualquer tipo de
texto. Isso não significa, entretanto, que um idiomatismo específico aparecerá
freqüentemente, mesmo em grandes corpora. Lingüistas ou estudantes que procuram
vários contextos do mesmo idiomatismo têm de usar corpora de bilhões de palavras. A
Web é, atualmente, o único corpus gigante que pode atingir essa meta. (COLSON, 2003,
p. 59). 8
7 Tradução nossa de “Corpus linguistics offers a useful standard for measuring idiom frequency: the
number of occurrences per million words (PMW). Many verbal idioms of English, French and Dutch
(and probably of all European languages) correspond to a frequency of less than 1 PMW, i.e. their
occurrence in a corpus is inferior to one in a million words. It is worth nothing that a corpus of a one
million words roughly corresponds to the text of ten novels”!
8 Tradução nossa de “Idioms as a whole turn out be very frequent in any given text. This does not
mean, however, that a specific idiom will appear frequently, even in large corpora. Linguists or
students looking for many contexts of the same idiom have to use corpora of billions of words. The
Web is presently the only gigantic corpus that can stand up to that goal”.