DataBase-文献数据库-PubMed_PMC

PMC(PubMed Central)和 PubMed 都是由美国国家生物技术信息中心(NCBI)维护的生物医学领域重要学术资源,但两者功能有所不同。往往也是我们研究过程中跳不过去的几个调研渠道。
PubMed是一个免费的文献检索平台,主要收录生物医学领域的论文摘要与引文信息,覆盖包括MEDLINE在内的超过3000万篇文献,用户可通过关键词、作者等方式快速定位相关研究。
PMC则是一个开放获取的全文数据库,专门存储同行评审的生物医学与生命科学期刊论文的全文内容,尤其要求受美国国立卫生研究院(NIH)等机构资助的研究成果在此公开共享。
PubMed的部分文献会链接至PMC的免费全文,但PMC中的内容也会被整合到PubMed的检索结果中。两者互为补充,PubMed侧重文献发现与摘要检索,PMC则聚焦于全文的开放共享,共同推动科学知识的传播与利用。
但是除了进行文章调研,在遗传分析领域,对这类开源全文的依赖更甚。同时为了提高资源检索的速度,记录相关开源资料的获取方式,来提高本地业务的稳定性,同时也满足收集癖(毕竟下载了,就等于看过了(手动狗头~)。

PMC 下载资源

PMC 本身直接开源了其收录的文献资源 https://pmc.ncbi.nlm.nih.gov/tools/textmining/ ,可以直接进行下载获取,通过该链接可以批量获取PMC收录的所有全文信息,
同时PMC也提供了API 接口:https://www.ncbi.nlm.nih.gov/research/bionlp/APIs/BioC-PMC/
通过已知的ID可以直接检索获取全文的信息,示例

1
2
3
4
5
https://www.ncbi.nlm.nih.gov/research/bionlp/RESTful/pmcoa.cgi/BioC_[format]/[ID]/[encoding]
# The parameters are:
# format: xml or json
# ID: PubMed ID (such as 17299597) or PMC ID (such as PMC1790863)
# encoding: unicode or ascii

可以通过PMID或 PMC ID直接获取文章信息

PubMed

APIs

Pubmed提供的 API 接口:使用 efetch 工具,指定返回格式为 XML 或 JSON。

  1. 通过文章title查找PMID

    1
    2
    3
    4
    title="Caution advised in the use of CFTR modulator treatment for individuals harboring specific CFTR variants"
    https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term={title}[Title]

    # https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=Caution%20advised%20in%20the%20use%20of%20CFTR%20modulator%20treatment%20for%20individuals%20harboring%20specific%20CFTR%20variants[Title]
  2. 通过 PMID 获取 DOI

示例 URL:

1
https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=27214204&retmode=xml

操作步骤:

将 PMID列表 替换为具体的 PMID(多个 PMID 用逗号分隔)。

解析返回的 XML/JSON 数据,提取 字段。

示例代码(PMID 12345678 获取 DOI):

1
https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=12345678&retmode=xml

  1. 通过 DOI 反向查找 PMID

    API 接口:使用 esearch 工具,结合 term 参数搜索 DOI。

    示例 URL:

    1
    https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=DOI值[DOI]&retmode=json

    操作步骤:

    将 DOI值 替换为目标 DOI(需 URL 编码,例如 10.1038/nature12345 → 10.1038%2Fnature12345)。
    
    解析返回的 JSON 数据中的 IdList 字段,获取 PMID。
    

    示例代码(DOI 10.1038/nature12345 查找 PMID):

    1
    https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=10.1038/nature12345[DOI]&retmode=json

ClinVar

clinVar提供了可以下载所有变异对应文献PMID的记录
https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/var_citations.txt

1
2
3
4
5
6
7
8
9
#AlleleID       VariationID     rs      nsv     citation_source citation_id
15041 2 397704705 PubMed 25741868
15041 2 397704705 PubMedCentral 4544753
15042 3 397704709 PubMed 20613862
15044 5 267606829 PubMed 20818383
15044 5 267606829 PubMed 20858599
15046 7 200401432 PubMed 25326635
15046 7 200401432 PubMedCentral 4544753
15046 214885 200401432 PubMed 25741868

该文件可以通过AlleleID检索获取clinvar收录的所有相关文献,
如果我们没有AlleleID,可以下载clinvar.vcf 检索获取。
也可以通过variant_summary, 该文件记录了更多的变异信息,除了vcf相关变异描述,还提供了基因、转录本、cHGVS和pHGVS进行检索。

-------------本文结束感谢您的阅读-------------