对《尤利西斯》等三本书,检验其是否符合齐普夫定律
程序员文章站
2024-03-25 21:45:22
...
对《尤利西斯》等三本书,检验其是否符合齐普夫定律
齐普夫定律(Zipf’s law),是美国哈佛大学语言学教授齐普夫(G.K.Zipf)于1948年提出的一个发现:在一种语言中,将词语按使用频率从高到低排序,设其使用频率为F,序号为R,近似有
其中C是一个常数。
我就拿《圣经》、《哈姆雷特》和《尤利西斯》三本英文原著做个试验,凭借我单薄的计量知识,看看它们符不符合齐普夫定律。
代码实现过程
第一步,调包…
import xlwt # 导出xls文件
from matplotlib import pyplot as plt
import numpy as np # 用来给数据取对数
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm # 做统计检验
第二步,写一个统计这几本书的词频,并且排序:
def get_stats(filename):
"""
删除文本中的标点符号并将词频用字典形式储存
"""
with open(filename, 'r', encoding='utf-8') as file:
content = file.read()
word_list = content.split(' ')
# 删除文本中的标点符号
exclude = "\'\"\n\t\r,./;[]-.<>?:{}_*!`~"
for ex in exclude:
for w in word_list:
if ex in w:
word_list.remove(w)
else:
continue
# 统计词频,并将结果储存在字典内
stats = {}
for w in word_list:
stats[w] = stats.get(w, 0) + 1
return stats
def order_stats(stats):
"""
词频从大到小排列
"""
stats_order = sorted(stats.items(), key=lambda x:x[1], reverse=True)
return stats_order
def get_fr(stats_order):
"""
在词频从大到小排列后,为单词标***
"""
fr = []
rk = 1
for i in stats_order:
fr.append((rk, i[1]))
rk += 1
return fr
第三步,把统计结果导出为xls文件:
def make_excel(stats, filename):
"""
将词频储存在excel中
"""
wbk = xlwt.Workbook()
sheet = wbk.add_sheet("wordcount")
for i in range(len(stats)):
sheet.write(i, 0, label=list(stats.keys())[i])
sheet.write(i, 1, label=list(stats.values())[i])
wbk.save(r'E:{}stats.xls'.format(filename[:-4]+'_'))
第四步,作图:
def get_x(fr):
"""
获取x轴上的值
"""
x = []
for i in fr:
x.append(int(i[0]))
return x
def get_y(fr):
"""
获取y轴上的值
"""
y = []
for i in fr:
y.append(int(i[1]))
return y
def log_x(x):
"""
对x取对数
"""
x1 = np.log(x)
return x1
def log_y(y):
"""
对y取对数
"""
y1 = np.log(y)
return y1
def visualize_stats(fr, x, y, x1, y1, filename):
"""
根据统计结果作折线图
"""
# 按stats原值绘制折线图
plt.figure(1)
ax = plt.gca()
ax.spines['bottom'].set_position(('data', 0))
ax.spines['left'].set_position(('data', 0))
plt.plot(x, y)
plt.xlabel('rank')
plt.ylabel('frequency')
plt.title(filename[:-4])
plt.savefig('E:{}.png'.format(filename[:-4]+'_plot_int'))
plt.show()
# 将stats取对数并绘制折线图
plt.figure(2)
ax = plt.gca()
ax.spines['bottom'].set_position(('data', 0))
ax.spines['left'].set_position(('data', 0))
plt.plot(x1, y1)
plt.xlabel('log_rank')
plt.ylabel('log_frequency')
plt.title(filename[:-4])
# 绘制一元线性回归图形
x2 = []
y2 = []
for i in x1:
temp = []
temp.append(i)
x2.append(temp)
for i in y1:
temp = []
temp.append(i)
y2.append(temp)
l_model = LinearRegression()
l_model.fit(x2, y2)
y2_pre = l_model.predict(x2)
plt.plot(x2, y2_pre, 'r-')
# 储存图像
plt.savefig('E:/{}.png'.format(filename[:-4]+'_plot_log'))
plt.show()
第五步,做统计检验:
def ols_regression(x1,y1):
"""
作一元线性回归
"""
x1 = sm.add_constant(x1)
mod = sm.OLS(y1, x1)
res = mod.fit()
print(res.summary())
第六步,调用主函数:
import collect_stats as cs
books = ['Hamlet, Prince of Denmark by William Shakespeare.txt',
'The King James Version of the Bible.txt',
'Ulysses by James Joyce.txt']
for b in books:
stats = cs.get_stats(b)
stats_order = cs.order_stats(stats)
fr = cs.get_fr(stats_order)
cs.make_excel(stats, b)
x = cs.get_x(fr)
y = cs.get_y(fr)
x1 = cs.log_x(x)
y1 = cs.log_y(y)
cs.visualize_stats(fr, x, y, x1, y1, b)
cs.ols_regression(x1, y1)
结果
这是《圣经》的:
从判定系数、t统计量、F统计量、P值来看(才学到这-_-),这很符合齐普夫定律!!!
这是《哈姆雷特》的:
《哈姆雷特》的判定系数最高,难道是因为最通俗???
这是《尤利西斯》的:
《尤利西斯》的判定系数最低,曲线最多舛。可以理解,大文豪爱掉书袋嘛。
上一篇: Linux安装MySQL详细步骤
下一篇: HashMap的泊松分布