pandas学习，将两个csv文件的经纬度通过关键字拼接，求出两点之间的距离

程序员文章站 2024-01-24 15:49:10

...

最近，有个工作上的诉求，将两份数据处理后，得出两个经纬度点之间的距离。最初用shell将两份数据处理，得到了两张csv表，两张表中都有key值，以及经纬度，然后发现用shell算经纬度之间的距离，又很麻烦，只好转向python，
今天分享一下用python处理数据，得出两个经纬度之间的距离的过程。
先看两张表的内容。
pandas学习，将两个csv文件的经纬度通过关键字拼接，求出两点之间的距离

首先，使用haversine方法，方便计算两点间的距离。

from haversine import haversine
import pandas as pd
list1 = []


def cal_distance(lon1, lat1, lon2, lat2):
    """
    计算两个经纬度点之间的距离
    """
    g1 = (lon1, lat1)
    g2 = (lon2, lat2)

    ret = haversine(g1, g2) * 1000 # haversine方法算出来的单位是km，故乘以1000，得到以米为单位的数值
    result = "%.7f" % ret

    return result

其次，将两张csv表通过key值拼接在一起。并且过滤无效的数据。

def analysis_data(file1, file2, retfile):
    """
    处理两张csv表，以key值合并
    """
    data1 = pd.read_csv(file1)
    data2 = pd.read_csv(file2)
    outfile = pd.merge(data1, data2, left_on='key', right_on='key', how='right')
    # 保留经纬度7位有效数字
    outfile['long1'] = outfile['long1'].map(lambda x: ('%.7f')% x)
    outfile['long2'] = outfile['long2'].map(lambda x: ('%.7f') % x)
    outfile['lat1'] = outfile['lat1'].map(lambda x: ('%.7f') % x)
    outfile['lat2'] = outfile['lat2'].map(lambda x: ('%.7f') % x)

    # 过滤掉没有拼接到数据
    outfile = outfile[~outfile['lat2'].isin(["nan"])]
    print(outfile)
    outfile.to_csv(retfile, index=False) # 这里index参数设置为False，不将索引号写入文件中。

下图是拼接后的结果。
pandas学习，将两个csv文件的经纬度通过关键字拼接，求出两点之间的距离
最后，最后读取拼接结果文件的内容，计算两个点之间的距离。

def read_data(filename):
    """
    读取csv文件中的两个经纬度点
    """
    csv_data = pd.read_csv(filename, float_precision='round_trip')  # 这里float_precision参数指定园整转换器，数值的小数位和文件内保持一致
    row = csv_data.shape[0]
    # print(csv_data)
    csv_data['distance'] = 0
    for i in range(0, row):
        long1 = csv_data.loc[i]['long1']
        lat1 = csv_data.loc[i]['lat1']
        long2 = csv_data.loc[i]['long2']
        lat2 = csv_data.loc[i]['lat2']
        s = cal_distance(lon1=long1, lat1=lat1, lon2=long2, lat2=lat2)
        list1.append(s)

    return list1

pandas学习，将两个csv文件的经纬度通过关键字拼接，求出两点之间的距离
这里将计算后得到的结果放入列表中。
原本是想将每行计算出来的结果，添加到每行的末尾，无奈，搞半天没搞成预期的结果，只能后面再优化了。

相关标签： pandas数据处理 python

上一篇： sphinx增量索引的一个问题_PHP

下一篇：如何使用node基于puppeteer模拟登录抓取页面