欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

机器学习项目(六)医疗知识图谱构建(一)

程序员文章站 2022-06-12 17:06:02
...

NLP中的两大流派

知识图谱

用三元组来表示知识:对领域的特定知识进行结构化存储和表示
模型算法:利用图谱关系进行推导,进行实现自主学习

深度学习

利用机器提取的特征来表述数据:自动提取内在特征
模型算法:优化特征的权重进行非线性映射

深度学习对比知识图谱能够实现端到端的模型,中间减少人为的参与,知识图谱通过三元组的关系表示,可以最大限度的获得自然世界中的相互联系

发展方向

Pretrain+finetune

预训练:大语料、无监督、深模型获得语义表示
微调:在下游任务中添加具体语义信息实现任务
强化学习
训练:自动获得更深的语义信息
测试:可面对复杂语境自动找到合适的表达

爬虫获取

利用正则和结构化处理公开数据集、人工整理数据、爬虫获得数据
什么是爬虫:通过解析网页资源自动化的获得网页数据的手段
在各个子领域内的专业网站内,获得网页内容、解析网页内容、保存获得资源

爬虫相关的类库

urilib:网络获得html文件
re:正则表达式
bs4:简单边界的处理html
selenium:自动化测试

import urllib
import urllib.request
response = urllib.request.urlopen('http://www.baidu.com')  # 返回HTML5文件
print(response.read().decode('utf-8'))

# 修改头文件,打开网页
from urllib import request, parse
url = 'http://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
    'Host': 'httpbin.org'
}
dict = {
    'name': 'zhaofan'
}
data = bytes(parse.urlencode(dict), encoding='utf8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

# 设置代理,打开网页
import urllib.request
proxy_handler = urllib.request.ProxyHandler({
    'http': 'http://127.0.0.1:9743',
    'https': 'https://127.0.0.1:9743'
})
opener = urllib.request.build_opener(proxy_handler)
# response = opener.open('http://httpbin.org/get')
response = opener.open("http://yao.xywy.com/")
print(response.read())
from bs4 import BeautifulSoup

html = '''
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>bs4
<p class="story">...</p>
'''
soup = BeautifulSoup(html,'lxml')
print(soup.prettify())
print(soup.title)  # 通过这种soup.标签名 我们就可以获得这个标签的内容
print(soup.title.name)  # 当我们通过soup.title.name的时候就可以获得该title标签的名称,即title
print(soup.title.string)  # 获取第一个title标签的内容:
print(soup.title.parent.name)   # 获取第一个title标签的内容:
print(soup.p)  # 获取第一个p标签的内容:
print(soup.p["class"])  # 获取p标签的name属性值
print(soup.a)
print(soup.find_all('a'))  # 可以根据标签名,属性,内容查找文档
print(soup.find(id='link3'))  # 获得属性
from selenium import webdriver
# 声明浏览器
browser = webdriver.Chrome()
browser = webdriver.Firefox()
url = 'https:www.baidu.com'
browser.get(url)#打开浏览器预设网址
print(browser.page_source)#打印网页源代码
browser.close()#关闭浏览器  
input_first = browser.find_element_by_id('q')  #通过id的方式获得相应元素
input_two = browser.find_element_by_css_selector('#q')  # 通过CSS的方式获得相应元素
print(input_first)
print(input_two)
from selenium.webdriver.common.by import By  # 通过By的方式获得元素
input_1 = browser.find_element(By.ID, 'q')
print(input_1)
# selenium的强项在于它的交互动作
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
target = browser.find_element_by_css_selector('#droppable')
actions = ActionChains(browser)
actions.drag_and_drop(source, target)
actions.perform()