pandas学习,将两个csv文件的经纬度通过关键字拼接,求出两点之间的距离
程序员文章站
2024-01-24 15:49:10
...
最近,有个工作上的诉求,将两份数据处理后,得出两个经纬度点之间的距离。最初用shell将两份数据处理,得到了两张csv表,两张表中都有key值,以及经纬度,然后发现用shell算经纬度之间的距离,又很麻烦,只好转向python,
今天分享一下用python处理数据,得出两个经纬度之间的距离的过程。
先看两张表的内容。
首先,使用haversine方法,方便计算两点间的距离。
from haversine import haversine
import pandas as pd
list1 = []
def cal_distance(lon1, lat1, lon2, lat2):
"""
计算两个经纬度点之间的距离
"""
g1 = (lon1, lat1)
g2 = (lon2, lat2)
ret = haversine(g1, g2) * 1000 # haversine方法算出来的单位是km,故乘以1000,得到以米为单位的数值
result = "%.7f" % ret
return result
其次,将两张csv表通过key值拼接在一起。并且过滤无效的数据。
def analysis_data(file1, file2, retfile):
"""
处理两张csv表,以key值合并
"""
data1 = pd.read_csv(file1)
data2 = pd.read_csv(file2)
outfile = pd.merge(data1, data2, left_on='key', right_on='key', how='right')
# 保留经纬度7位有效数字
outfile['long1'] = outfile['long1'].map(lambda x: ('%.7f')% x)
outfile['long2'] = outfile['long2'].map(lambda x: ('%.7f') % x)
outfile['lat1'] = outfile['lat1'].map(lambda x: ('%.7f') % x)
outfile['lat2'] = outfile['lat2'].map(lambda x: ('%.7f') % x)
# 过滤掉没有拼接到数据
outfile = outfile[~outfile['lat2'].isin(["nan"])]
print(outfile)
outfile.to_csv(retfile, index=False) # 这里index参数设置为False,不将索引号写入文件中。
下图是拼接后的结果。
最后,最后读取拼接结果文件的内容,计算两个点之间的距离。
def read_data(filename):
"""
读取csv文件中的两个经纬度点
"""
csv_data = pd.read_csv(filename, float_precision='round_trip') # 这里float_precision参数指定园整转换器,数值的小数位和文件内保持一致
row = csv_data.shape[0]
# print(csv_data)
csv_data['distance'] = 0
for i in range(0, row):
long1 = csv_data.loc[i]['long1']
lat1 = csv_data.loc[i]['lat1']
long2 = csv_data.loc[i]['long2']
lat2 = csv_data.loc[i]['lat2']
s = cal_distance(lon1=long1, lat1=lat1, lon2=long2, lat2=lat2)
list1.append(s)
return list1
这里将计算后得到的结果放入列表中。
原本是想将每行计算出来的结果,添加到每行的末尾,无奈,搞半天没搞成预期的结果,只能后面再优化了。