对《尤利西斯》等三本书，检验其是否符合齐普夫定律

程序员文章站 2024-03-25 21:45:22

...

对《尤利西斯》等三本书，检验其是否符合齐普夫定律

齐普夫定律（Zipf’s law），是美国哈佛大学语言学教授齐普夫（G.K.Zipf）于1948年提出的一个发现：在一种语言中，将词语按使用频率从高到低排序，设其使用频率为F，序号为R，近似有
$F*R=C$ 其中C是一个常数。
我就拿《圣经》、《哈姆雷特》和《尤利西斯》三本英文原著做个试验，凭借我单薄的计量知识，看看它们符不符合齐普夫定律。

代码实现过程

第一步，调包…

import xlwt     # 导出xls文件
from matplotlib import pyplot as plt
import numpy as np     # 用来给数据取对数
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm     # 做统计检验

第二步，写一个统计这几本书的词频，并且排序：

def get_stats(filename):
    """
    删除文本中的标点符号并将词频用字典形式储存
    """
    with open(filename, 'r', encoding='utf-8') as file:
        content = file.read()
    word_list = content.split(' ')

    # 删除文本中的标点符号
    exclude = "\'\"\n\t\r,./;[]-.<>?:{}_*!`~"
    for ex in exclude:
        for w in word_list:
            if ex in w:
                word_list.remove(w)
            else:
                continue

    # 统计词频，并将结果储存在字典内
    stats = {}
    for w in word_list:
        stats[w] = stats.get(w, 0) + 1
    return stats
    
def order_stats(stats):
    """
    词频从大到小排列
    """
    stats_order = sorted(stats.items(), key=lambda x:x[1], reverse=True)
    return stats_order

def get_fr(stats_order):
    """
    在词频从大到小排列后，为单词标***
    """
    fr = []
    rk = 1
    for i in stats_order:
        fr.append((rk, i[1]))
        rk += 1
    return fr

第三步，把统计结果导出为xls文件：

def make_excel(stats, filename):
    """
    将词频储存在excel中
    """
    wbk = xlwt.Workbook()
    sheet = wbk.add_sheet("wordcount")
    for i in range(len(stats)):
        sheet.write(i, 0, label=list(stats.keys())[i])
        sheet.write(i, 1, label=list(stats.values())[i])
    wbk.save(r'E:{}stats.xls'.format(filename[:-4]+'_'))

第四步，作图：

def get_x(fr):
    """
    获取x轴上的值
    """
    x = []
    for i in fr:
        x.append(int(i[0]))
    return x

def get_y(fr):
    """
    获取y轴上的值
    """
    y = []
    for i in fr:
        y.append(int(i[1]))
    return y

def log_x(x):
    """
    对x取对数
    """
    x1 = np.log(x)
    return x1

def log_y(y):
    """
    对y取对数
    """
    y1 = np.log(y)
    return y1

def visualize_stats(fr, x, y, x1, y1, filename):
    """
    根据统计结果作折线图
    """
    # 按stats原值绘制折线图
    plt.figure(1)
    ax = plt.gca()
    ax.spines['bottom'].set_position(('data', 0))
    ax.spines['left'].set_position(('data', 0))
    plt.plot(x, y)
    plt.xlabel('rank')
    plt.ylabel('frequency')
    plt.title(filename[:-4])
    plt.savefig('E:{}.png'.format(filename[:-4]+'_plot_int'))
    plt.show()

    # 将stats取对数并绘制折线图
    plt.figure(2)
    ax = plt.gca()
    ax.spines['bottom'].set_position(('data', 0))
    ax.spines['left'].set_position(('data', 0))
    plt.plot(x1, y1)
    plt.xlabel('log_rank')
    plt.ylabel('log_frequency')
    plt.title(filename[:-4])

    # 绘制一元线性回归图形
    x2 = []
    y2 = []
    for i in x1:
        temp = []
        temp.append(i)
        x2.append(temp)
    for i in y1:
        temp = []
        temp.append(i)
        y2.append(temp)
    l_model = LinearRegression()
    l_model.fit(x2, y2)
    y2_pre = l_model.predict(x2)
    plt.plot(x2, y2_pre, 'r-')

    # 储存图像
    plt.savefig('E:/{}.png'.format(filename[:-4]+'_plot_log'))
    plt.show()

第五步，做统计检验：

def ols_regression(x1,y1):
    """
    作一元线性回归
    """
    x1 = sm.add_constant(x1)
    mod = sm.OLS(y1, x1)
    res = mod.fit()
    print(res.summary())

第六步，调用主函数：

import collect_stats as cs

books = ['Hamlet, Prince of Denmark by William Shakespeare.txt',
         'The King James Version of the Bible.txt',
         'Ulysses by James Joyce.txt']

for b in books:
    stats = cs.get_stats(b)
    stats_order = cs.order_stats(stats)
    fr = cs.get_fr(stats_order)
    cs.make_excel(stats, b)
    x = cs.get_x(fr)
    y = cs.get_y(fr)
    x1 = cs.log_x(x)
    y1 = cs.log_y(y)
    cs.visualize_stats(fr, x, y, x1, y1, b)
    cs.ols_regression(x1, y1)

结果

这是《圣经》的：
对《尤利西斯》等三本书，检验其是否符合齐普夫定律

从判定系数、t统计量、F统计量、P值来看（才学到这-_-），这很符合齐普夫定律！！！
这是《哈姆雷特》的：

《哈姆雷特》的判定系数最高，难道是因为最通俗？？？
这是《尤利西斯》的：
对《尤利西斯》等三本书，检验其是否符合齐普夫定律

《尤利西斯》的判定系数最低，曲线最多舛。可以理解，大文豪爱掉书袋嘛。

上一篇： Linux安装MySQL详细步骤

下一篇： HashMap的泊松分布