Bio.Entrez下载PubMed中的文献
程序员文章站
2022-05-04 14:09:22
...
有些东西不常用,所以要多做记录
#导入模块
from Bio import Entrez, Medline
import re
#邮箱不是强制性,但NCBI要求出现问题时可以联系到用户。也可以在Entrez.esearch()的参数列表里设置email="[email protected]"
Entrez.email = "[email protected]"
#搜索关键词,就像在线搜索一样,可以用“AND”和“OR”。以及关键词类别,如[Year], [Organism], [Gene]等。
keyword = 'miR156'
#Entrez.esearch返返回一个采用"handle"的格式数据库标识的列表,这个列表可以用Entrez.read读取。db, term是必选参数
handle = Entrez.esearch(db='pubmed', term=keyword, retmax=10)
#Entrez.read读取数据库列表,返回一个字典 record,该字典包含键"IdList"(表示配备文本查询的ID的列表),“Count”(所有ID的数目)
record = Entrez.read(handle)
pmids = record["IdList"]
#print(pmids)
#Entrez.efetch用上面获得的ID列表或者单个ID作为参数,retmode表示被检索记录格式(text, HTML, XML)。rettype指显示记录的类型,这取决于访问的数据库。PubMed的rettype可以是abstract, citation或medline等。对于UniProt中rettype可以为fasta。retmax是返回的记录总数,上限1w。
handle = Entrez.efetch(db='pubmed', id=pmids, rettype='medline', retmode='text', retmax=10)
#Medline模块用来解析Entrez.efetch下载的记录。Medline.parse函数可以将其转换为一个列表。这个列表包含Bio.Medline.Record对象,就像一个字典。最常用的键是TI(标题,Title)、PMID、PG(页码,pages)、AB(摘要,Abstract)和AT(作者,Authors)
medline_records = Medline.parse(handle)
records = list(medline_records)
n = 1
#AU作者,TI题目,LR日期,TA杂志缩写,JT杂志全称,LID doi号
for record in records:
authors = ",".join(record["AU"])
doi = re.sub('^.*\[pii\] ',"",record["LID"])
doi = re.sub(' \[doi\]$',"",doi)
link = "https://doi.org/"+doi
out = [authors, record["TI"], record["LR"], record["TA"], link]
print("\t".join(out))
###### 可以通过下面查看字典里所有的键 ######
for record in records:
for k, v in record.items():
print(k, v)
推荐阅读