欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

对《尤利西斯》等三本书,检验其是否符合齐普夫定律

程序员文章站 2024-03-25 21:45:22
...

对《尤利西斯》等三本书,检验其是否符合齐普夫定律

齐普夫定律(Zipf’s law),是美国哈佛大学语言学教授齐普夫(G.K.Zipf)于1948年提出的一个发现:在一种语言中,将词语按使用频率从高到低排序,设其使用频率为F,序号为R,近似有
FR=C F*R=C 其中C是一个常数。
我就拿《圣经》、《哈姆雷特》和《尤利西斯》三本英文原著做个试验,凭借我单薄的计量知识,看看它们符不符合齐普夫定律。

代码实现过程

第一步,调包…

import xlwt     # 导出xls文件
from matplotlib import pyplot as plt
import numpy as np     # 用来给数据取对数
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm     # 做统计检验

第二步,写一个统计这几本书的词频,并且排序:

def get_stats(filename):
    """
    删除文本中的标点符号并将词频用字典形式储存
    """
    with open(filename, 'r', encoding='utf-8') as file:
        content = file.read()
    word_list = content.split(' ')

    # 删除文本中的标点符号
    exclude = "\'\"\n\t\r,./;[]-.<>?:{}_*!`~"
    for ex in exclude:
        for w in word_list:
            if ex in w:
                word_list.remove(w)
            else:
                continue

    # 统计词频,并将结果储存在字典内
    stats = {}
    for w in word_list:
        stats[w] = stats.get(w, 0) + 1
    return stats
    
def order_stats(stats):
    """
    词频从大到小排列
    """
    stats_order = sorted(stats.items(), key=lambda x:x[1], reverse=True)
    return stats_order

def get_fr(stats_order):
    """
    在词频从大到小排列后,为单词标***
    """
    fr = []
    rk = 1
    for i in stats_order:
        fr.append((rk, i[1]))
        rk += 1
    return fr

第三步,把统计结果导出为xls文件:

def make_excel(stats, filename):
    """
    将词频储存在excel中
    """
    wbk = xlwt.Workbook()
    sheet = wbk.add_sheet("wordcount")
    for i in range(len(stats)):
        sheet.write(i, 0, label=list(stats.keys())[i])
        sheet.write(i, 1, label=list(stats.values())[i])
    wbk.save(r'E:{}stats.xls'.format(filename[:-4]+'_'))

第四步,作图:

def get_x(fr):
    """
    获取x轴上的值
    """
    x = []
    for i in fr:
        x.append(int(i[0]))
    return x

def get_y(fr):
    """
    获取y轴上的值
    """
    y = []
    for i in fr:
        y.append(int(i[1]))
    return y

def log_x(x):
    """
    对x取对数
    """
    x1 = np.log(x)
    return x1

def log_y(y):
    """
    对y取对数
    """
    y1 = np.log(y)
    return y1

def visualize_stats(fr, x, y, x1, y1, filename):
    """
    根据统计结果作折线图
    """
    # 按stats原值绘制折线图
    plt.figure(1)
    ax = plt.gca()
    ax.spines['bottom'].set_position(('data', 0))
    ax.spines['left'].set_position(('data', 0))
    plt.plot(x, y)
    plt.xlabel('rank')
    plt.ylabel('frequency')
    plt.title(filename[:-4])
    plt.savefig('E:{}.png'.format(filename[:-4]+'_plot_int'))
    plt.show()

    # 将stats取对数并绘制折线图
    plt.figure(2)
    ax = plt.gca()
    ax.spines['bottom'].set_position(('data', 0))
    ax.spines['left'].set_position(('data', 0))
    plt.plot(x1, y1)
    plt.xlabel('log_rank')
    plt.ylabel('log_frequency')
    plt.title(filename[:-4])

    # 绘制一元线性回归图形
    x2 = []
    y2 = []
    for i in x1:
        temp = []
        temp.append(i)
        x2.append(temp)
    for i in y1:
        temp = []
        temp.append(i)
        y2.append(temp)
    l_model = LinearRegression()
    l_model.fit(x2, y2)
    y2_pre = l_model.predict(x2)
    plt.plot(x2, y2_pre, 'r-')

    # 储存图像
    plt.savefig('E:/{}.png'.format(filename[:-4]+'_plot_log'))
    plt.show()

第五步,做统计检验:

def ols_regression(x1,y1):
    """
    作一元线性回归
    """
    x1 = sm.add_constant(x1)
    mod = sm.OLS(y1, x1)
    res = mod.fit()
    print(res.summary())

第六步,调用主函数:

import collect_stats as cs

books = ['Hamlet, Prince of Denmark by William Shakespeare.txt',
         'The King James Version of the Bible.txt',
         'Ulysses by James Joyce.txt']

for b in books:
    stats = cs.get_stats(b)
    stats_order = cs.order_stats(stats)
    fr = cs.get_fr(stats_order)
    cs.make_excel(stats, b)
    x = cs.get_x(fr)
    y = cs.get_y(fr)
    x1 = cs.log_x(x)
    y1 = cs.log_y(y)
    cs.visualize_stats(fr, x, y, x1, y1, b)
    cs.ols_regression(x1, y1)

结果

这是《圣经》的:
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
从判定系数、t统计量、F统计量、P值来看(才学到这-_-),这很符合齐普夫定律!!!
这是《哈姆雷特》的:
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
《哈姆雷特》的判定系数最高,难道是因为最通俗???
这是《尤利西斯》的:
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
《尤利西斯》的判定系数最低,曲线最多舛。可以理解,大文豪爱掉书袋嘛。