| INTRODUCTION In his pioneering work, Zipf observed that more frequent words tend to be shorter, and attributed this phenomenon to a general principle of least effort (Zipf, 1949). At the level of the dependency between length and frequency, this principle can be considered an informal precursor of a compression principle, i.e. assigning smaller lengths to more frequently used words, that has been studied with mathematical rigor in information theory (Cover & Thomas, 2006). Indeed, the law of brevity is a requirement for optimal coding. Consider that the mean code length of a vocabulary of n words is (Cover & Thomas, 2006) where p¡ is probability of use of the z'th most probable word and d¡ is its length. It has been proven that the minimization of ECL needs that (Ferrer-i-Cancho et al., in press) d\ Pi > P3 > • • • Pn by definition, Equation (2) means that the length of a word cannot increase as its probability increases. In the absence of ties in probabilities or lengths, Equation (2) simply means that word length must be a strictly monotonically decreasing function of word probability under optimal coding (Ferrer-i-Cancho et al., in press). From such ideal dependency one expects a perfect negative correlation between word frequency and word length in a text. Accordingly, we define a generalized law of brevity as a tendency of the size or length of a unit to decrease as its frequency increases (Ferrer-i-Cancho & Hernández-Fernández, 2013), which is justified from an information theory perspective, and has the advantage of being neutral with regard to the functional dependency between p¡ and d¡. |
INTRODUCCIÓN En su trabajo pionero/innovador, Zipf observó que las palabras más frecuentes tienden a ser más cortas, y atribuyó este fenómeno a la ley general del mínimo esfuerzo (Zipf, 1949). A nivel de dependencia entre longitud y frecuencia, este principio puede ser considerado un precursor informal de un principio de compresión, es decir, se asignan longitudes más pequeñas a palabras más frecuentemente utilizadas, hecho que ha sido estudiado con rigor matemático en el ámbito de la teoría de la información (Cubierta & Thomas, 2006). De hecho, la ley de la brevedad es un requisito para una codificación óptima. Considerando que la media de la longitud del código de un vocabulario de n palabras es (Cubierta & Thomas, 2006) donde p¡ es la probabilidad de uso de la i-énesima palabra más probable y d¡ es su longitud. Se ha probado que la minimización of ECL requiere que (Ferrer-i-Cancho et al., en prensa) d\ Pi > P3 > • • • Pn, entonces la ecuación (2) significa que la longitud de una palabra no puede aumentar a medida que aumenta su probabilidad. Ante la ausencia de relaciones en las probabilidades o longitudes, la Ecuación (2) sencillamente significa que la longitud de palabra debe ser una función de probabilidad de palabra decreciente estrictamente monotónica bajo una codificación óptima (Ferrer-i-Cancho et al., en prensa). De esta dependencia ideal se espera una perfecta correlación negativa entre frecuencia de palabra y longitud de palabra en un texto. En consecuencia, definimos una ley de la brevedad generalizada como una tendencia del tamaño o longitud de una unidad a disminuir a medida que frecuencia aumenta (Ferrer-i-Cancho & Hernández-Fernández, 2013), el cual está justificado de una perspectiva de la teoría de la información, y tiene la ventaja de ser neutro respecto a la dependencia funcional entre p¡ y d¡. |