欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python爬虫智能提取东方财富贴吧内幕信息

程序员文章站 2022-07-08 17:27:19
所谓内幕信息,是指证券交易活动中,涉及公司的经营、财务或者对该公司证券的市场价格有重大影响的尚未公开的信息。 内幕信息所具备的三大特质。 1、是该信息所在集体,内部运作人员所知悉的信息。 2、是该信息所在集体,尚未对外公开的信息。 3、是对于信息所在集体或行业具备商业价值的信息。 (信息未公开:指公司未将信息载体交付或寄送大众传播媒介或法定公开媒介发布或发表。如果信息载体交付或寄送传播......

所谓内幕信息,是指证券交易活动中,涉及公司的经营、财务或者对该公司证券的市场价格有重大影响的尚未公开的信息。

内幕信息所具备的三大特质。

1、是该信息所在集体,内部运作人员所知悉的信息。

2、是该信息所在集体,尚未对外公开的信息。

3、是对于信息所在集体或行业具备商业价值的信息。

本文思路:通过网络爬虫获取贴吧信息,进行智能提取疑似的内幕信息

工具:PYTHON

目标:东方财富贴吧

源码如下:

import requests
import re
import time
from bs4 import BeautifulSoup

import io
import sys




# 抓取网页的通用框架,获取页面的内容
def getHtml(url):
    try:
        r = requests.get(url, timeout=30)
        # 状态码不是200就发出httpError的异常
        r.raise_for_status()
        # 获取正确的编码格式
        # r.encoding=r.apparent_encoding
        r.encoding = "utf-8"
        # 打印内容
        return r.text


    except:
        return "wrong!"

def get_author(url):
    # 将网页内容格式化利用bs4库
    authorsoup = BeautifulSoup(getHtml(url), 'lxml')

    # 获取所有的li标签属性为 j_thread_list clearfix,用列表接收
    divTag = authorsoup.find('div', attrs={"id": "mainlist"}).text.strip()

    s = in

本文地址:https://blog.csdn.net/supperling/article/details/108242643