DBLParse

科学文献管理系统

关于DBLP的一些信息

原文:dblpxml.pdf

DBLP记录

DBLP数据集可从https://dblp.uni-trier.de/xml/位置获得。
文件dblp.xml包含所有的索引记录,它的格式通过dblp.dtd文件定义。dblp.xml的大致结构如下:

<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE dblp SYSTEM "dblp.dtd">
<dblp>
    record 1
    ...
    record n
</dblp>

第一行指定了文件编码为ISO-8859-1(“Latin-1”),但实际上文件中只包含纯粹的ASCII字符。所有非ASCII字符都是用实体名称或实体数字表示。例如&eacute;(定义在dblp.dtd文件中)或者&#233;用来表示字符é。

XML的根元素<dblp>包含了一长串的索引记录,在DTD文件中列出了可能的记录名:

<!ELEMENT dblp (article|inproceedings|proceedings|book|incollection|
                phdthesis|mastersthesis|www|person|data)*>

这些标签实际上对应了bibtex的文章类型。

标签名 含义
article 期刊杂志的论文
book 公开出版的图书
incollection 书籍中带独立标题的章节
inproceedings 会议论文集中的一篇
phdthesis 博士论文
proceedings 会议论文集
mastersthesis 硕士论文

记录属性

例如:

<article key="journals/cacm/Szalay08" 
         mdate="2008-11-03">
    <author>Alexander S. Szalay</author>
    <title>Jim Gray, astronomer.</title>
    <pages>58-65</pages>
    <year>2008</year>
    <volume>51</volume>
    <journal>Commun. ACM</journal>
    <number>11</number>
    <ee>http://doi.acm.org/10.1145/1400214.1400231</ee>
    <url>db/journals/cacm/cacm51.html#Szalay08</url>
</article>

这条记录描述了一篇来自CACM (Communications of the ACM)的文章,article标签有两个属性:

作者

在BibTex中,最多只有一个author区域,包含一个作者列表。但在dblp中,每个作者对应一个author标签,标签的顺序非常重要,和论文上的署名顺序一致。

链接

一条记录在urlee标签中最多可以包含两条链接。所有的链接可能是绝对链接或者是相对链接。一个绝对链接是一个标准的网址,以指定的协议加上冒号开头(http:, ftp:),否则它是一个指向DBLP网站的相对链接。你可以在相对链接前面加上DBLP服务器的前缀来获取完整的链接。

回想起来,标签名urlee有一些使用不当,以下是对它们的一个简单的解释。