開放獲取 (Open Access, OA) 運動的發展, 使得越來越多的學術資源可以免費獲取。隨著開放資源類型的多樣化和數量的快速增長, 開放資源的學術價值也逐漸提高, 已經成為圖書館內除商業資源采購以外的重要館藏資源[1]。開放資源獲取的主要途徑有“開放獲取期刊”和“自我存檔”, 其中“自我存檔”即開放獲取倉儲 (Open Access Repositories, OAR) , 是對數字信息資源的免費存儲文檔庫, 其不僅內容免費, 而且對使用者沒有任何限制, 在過去十多年, 大部分學研機構、研究中心、政府機構、數據中心或圖書館建立了OAR。OAR收集大量不同類型開放學術信息資源, 包括期刊論文、學位論文、圖書、會議論文等[2]。學科知識庫專門收集特定學科主題的研究資源, 較具有代表性的OAR有高能物理領域的ar Xiv.org、醫學領域的Pub Med Central、地球科學領域的Earth-Prints Repository等[3]。學者們通過對OAR的相關研究, 不同程度地揭示了科研人員進行自存檔的態度和行為[4]、機構知識庫引起的圖書館員角色轉變[5]、機構知識庫的基礎理論以及機構知識庫的建設策略[6]等。
開放獲取倉儲目錄 (Directory of Open Access Repositories, Open DOA R) 由英國諾丁漢大學和瑞典倫德大學圖書館于2005年12月聯合建立, 是全球范圍內首家對OAR進行搜集、描述和組織的電子目錄, 登記數量由建立初期的128個[7], 發展為3 408個 (截至2017年8月) , 該目錄具有一定的重要性和權威性。Pinfield等基于2005—2012年的Open DOAR數據, 揭示了世界范圍內OAR的快速增長, 并概括了OAR的總體特征:以機構知識庫為主, 多數是跨學科領域, 網站登記資源多以英語為主, 存在少量OAR登記大量資源和大量OAR登記少量資源現象[7]。此外, 還有學者研究OAR的數量增長、發展趨勢及關鍵特征, 分析OAR在促進學術交流中的潛在作用, 探討了機構知識庫發展和建設中存在的問題和挑戰。一部分學者以地域為基礎集中分析OA R的特征, 如加拿大[8]、印度[9]和中國[10]等;還有一部分學者重點從學科角度集中分析OAR, 如從醫學領域[11]、計算機科學領域[12]等。
目前還沒有學者對資源環境領域OAR展開相關研究, 本文將面向資源環境領域開放學術資源的組織利用, 從基本情況和資源特征兩方面對在Open DOAR中登記的OAR進行分析。
資源環境領域學科范圍廣, 有多學科交叉性質, 涉及生態學、環境科學、地球化學與地球物理學、水資源學等[13]。在資源環境學科信息門戶研究與建設中學科范圍以資源與環境科學、地球科學為核心[14], 由此, 本文選取Open DOAR中與資源環境領域密切相關的地球和行星科學 (共88個OAR) 以及生態和環境學科 (共150個OAR) 分類下的OAR, 去重后得到195個資源環境領域相關的OAR作為分析樣本, 樣本的元數據信息獲取時間為2017年5月1—31日。本文從國家分布、類型分布、語言分布以及使用軟件四個方面揭示該領域OAR的基本情況。
經統計, Open DOAR資源環境領域195個OAR分布于55個國家, 其中美國、英國、法國等17個發達國家的OAR數量共99個, 占總量的一半略強, 因此, 從總體來看, 發達國家和發展中國家OAR的數量相對均衡。Pinf ield等研究也表明, OAR發展初期, 發達國家數量增長較快, 而2010年以后, 東亞、南美洲、東歐等地, 尤其是巴西、波蘭等國的OAR數量開始呈現較快的增長速度[7]。
本文將資源環境領域OAR的類型分為機構知識庫、學科知識庫、集成倉儲和政府倉儲四種, 其中機構知識庫收集、存放由某個機構或多個學術機構的研究人員產生的學術成果, 學科知識庫專門收集某一特定學科或主題的研究資源, 政府倉儲由政府或政府資助機構管理, 集成倉儲從其他來源收集資源。此外, Nicholas等還補充了OAR的一種類型, 即包含特定類型文件的格式存儲庫, 如學位論文、電子期刊、數據集或學習對象[15]。總體來看, 以機構知識庫 (共151個) 和學科知識庫 (共32個) 為主, 占比93.8%;集成倉儲和政府倉儲各有6個, 這兩種占該領域所有OAR數量的6.2%, 這與OAR總體特征[7]相符。調查表明, 全球出版物產出較多的機構, 大部分都建立了機構知識庫, 用以收集、保存和傳播自身機構的學術產出[16]。
在機構知識庫方面, 國外資源環境領域具有代表性的機構知識庫有佐治亞大學機構知識庫[17]、匹茲堡大學機構知識庫[18]、愛爾蘭海洋研究所機構知識庫[19]、海洋生物實驗室和伍茲霍爾海洋學研究所機構知識庫[20]等。國內該領域建設機構知識庫的相關機構主要集中在中國科學院, 包括中國科學院所屬的成都生物研究所、地球環境研究所、地理科學與資源研究所、生態環境研究中心、南海海洋研究所、新疆生態與地理研究所、煙臺海岸帶研究所等;此外, 北京大學機構知識庫也存儲了資源環境領域開放學術資源。在學科知識庫方面, Dryad[21]、CEDA Repository[22]、PANGAEA[23]等以存儲科學數據為主, 其中PANGAEA專門保存、發布和分發來自地球研究系統的地理參考數據;此外, e ERL[24]、OMA[25]及Earth-prints Repository[26]等學科知識庫都登記和存儲了資源環境領域相關的開放學術資源。
資源環境領域的OAR存儲了24種語言的開放資源, 以多種語言建立OAR, 滿足不同國家、不同用戶的語言需求。總體來看, 以英語存儲學術資源的OAR有159個, 占比81.5%, 數量最多, 這與Pinfield等的結論相符;其次是西班牙語、法語和中文;登記芬蘭語、僧伽羅語等9種語言開放資源的OAR分別有1個。Open DOAR中, 2008年以來登記非英語語種開放資源的OAR比例增加[7], 在資源環境領域, 登記除英語外其他語種開放資源的OAR占18.5%。
軟件是OAR建設的重要組成部分, 資源環境領域OA R建設過程中使用的開源或商業軟件共有27種 (見表1) , 其中前11種軟件有不少于2個OAR使用, 而使用Socionet、pan FMP等其他16種軟件的OA R分別各有1個, 另外還有19個OAR所使用的軟件在Open DOAR元數據中記錄為“Not specified”, 故未統計在上述軟件之列。90個OAR使用最流行的DSpace軟件, 31個OAR使用EPrints軟件, 使用這兩種開源軟件的OAR數量超過一半 (占比62.1%) 。其他OAR使用的軟件如d Libra、OPUS等由于語言限制, 僅適用特定國家, d Libra僅波蘭的OAR使用, OPUS僅德國的OAR使用。
總體來說, 資源環境領域OAR, 美國數量最多, 發達國家和其他國家的資源數量相對均衡, 以機構知識庫和學科知識庫為主, 登記的資源有多種語言但主要以英語為主, 大部分倉儲使用較為通用的DSpace和EPrints軟件。分析表明, 資源環境領域大多數國家的科研機構都積極建設OAR, 在語言和軟件上均體現出明顯的多樣化特征。我國在該領域建設OAR的機構多數集中在中國科學院的相關院所, 且都是機構知識庫, 我國沒有建設專門的資源環境領域學科知識庫, 相比之下資源環境領域建設OAR最多的美國在該領域有6個相關的學科知識庫。
表1 資源環境領域OAR使用軟件 下載原表
本文統計分析的195個資源環境領域OAR共登記約490萬條開放資源, 包括期刊論文、學位論文、圖書、會議論文等各種類型的學術資源, 分析OAR登記的學術資源的數量、類型、互操作性以及更新情況, 對資源環境領域OAR的開放資源再利用具有實踐指導意義。
資源環境領域OA R的資源數量范圍分布情況如下:登記資源數量小于0.1萬的OAR有30個, 占比15.4%;登記資源量在0.1萬—0.5萬的OAR有70個, 占比35.9%;登記資源量在0.5萬—1萬以及1萬—5萬的OAR均有37個, 各占19.0%;登記資源數量大于5萬的OAR有17個, 占比8.7%;另外, 有4個OAR的Open DOAR元數據信息中資源數量為空白, 因此沒有統計在上述資源數量范圍之列。對比Loan對Open DOAR中醫學領域OAR的分析[14], 醫學領域登記資源量大于5萬的OAR有11個, 占該領域OAR (共254個) 的4.3%, 對比發現, 資源環境領域登記大量資源的OAR相對較多。
資源環境領域OAR登記的資源類型分布如表2所示, 共有11種類型的開放資源, 包括常規開放資源 (期刊論文和會議論文等) 和領域特色資源 (數據集和地圖等) 。其中, 收集期刊論文的OAR最多 (占比77.4%) , 其次是未發表的資源、學位論文、會議論文、專著、多媒體資源、參考資料、專門資源、學習對象資源、專利、數據集。其中專門資源包含地圖、公告、灰色文獻、新聞、科技報告等。根據統計發現, 資源環境領域大多數OA R都存儲了多種類型的開放資源, 僅收錄一種資源的OAR相對較少, 這與近年來開放獲取范疇逐漸擴大的趨勢相同, OAR登記的開放資源類型多樣, 相對較全面。登記的資源類型中, 期刊論文、會議論文、學位論文、圖書可以較直接反應學術成果的資源相對較多, 登記在OAR中的多媒體資源、專門資源、學習對象資源、數據集等資源比例相對較少。
表2 資源環境領域OAR的資源類型 下載原表
數據集資源以及專門資源中包含的地圖充分體現了資源環境領域的特色。登記數據集資源的OAR有14個, 其中8個是學科知識庫、7個是機構知識庫, Dryad、PANGAEA、CEDA Repository、Earth-prints Repository[27]等重要學科知識庫都收集和存儲了數據集資源, 尤其是亞利桑那大學地球科學系的學科知識庫RRUFF Project[28]只登記數據集這一類資源。
大部分OAR遵循OAI-PMH協議, 能夠被專業搜索引擎收錄, 拓寬了資源的檢索途徑[29]。OAI-PMH協議支持OAR資源的元數據共享和互操作, 增強了系統的互操作性。Open DOAR中資源環境領域有133個 (占比68.2%) OA R提供OA I-PMH接口的鏈接地址, 支持用戶通過OAI-PMH協議獲取倉儲中資源的元數據內容;而31.8%的OAR不提供OAI-PMH接口的鏈接地址, 其登記的開放資源的使用和獲取權利在具體每個OAR的服務平臺中都有相應的政策和說明。
OAR登記資源的持續更新, 能保證系統的持久性, 推動倉儲的積極增長和發展。Open DOAR中OAR的元數據中資源量字段的信息2—4周更新一次[7]。從對2012—2017年發生數據更新的OAR數量來看, 2017年有153個資源環境領域OAR登記的學術資源進行了數據更新, 2015—2017年有91.8%的OAR對登記數據進行了更新, 有4個 (占比2.1%) OAR沒有提供數據更新年份。通過對數據更新情況的分析, 認為資源環境領域OAR對機構新增的開放學術資源進行持續收集和存儲, 是開放學術資源建設比較可靠的數據源。
總體來看, 資源環境領域OAR登記期刊論文、學位論文、數據集等多種類型資源, 在數量上已有一定規模并且持續更新, 大部分倉儲通過提供OAI-PMH接口支持用戶對開放資源元數據信息的獲取。
目前, 國內缺乏對資源環境領域開放學術資源的系統化發現、組織和利用實踐, 本文對Open DOAR中資源環境領域OAR的分析研究發現, 該領域開放學術資源分布在195個OAR中, 除期刊論文外, 還有許多其他類型資源, 開放資源在數量上也具有一定規模, 雖然可以免費使用, 但因存儲分散, 使得科研人員沒有時間和精力去查找和利用。因此, 面對上述問題, 結合學科領域特色, 有針對性地進行開放學術資源建設, 對不同來源開放學術資源進行系統化集成, 能夠提升開放學術資源的利用價值, 為科研人員提供資源保障和服務。本文結合分析結果, 針對資源環境領域開放學術資源的建設提出相關建議。
經過長期發展, 開放獲取的范疇得到延伸, 開放學術資源包括期刊論文、圖書、科技報告、科學數據、學位論文等各種類型。資源環境領域的開放學術資源建設有必要對OAR中登記的各種類型開放學術資源進行整合, 另外, 資源環境領域在科研過程的觀測和實驗中產生大量的科學數據資源, 而本文研究的Open DOAR中有14個OAR在不同程度上登記了科學數據資源, 因而在資源建設中應突出開放科學數據資源的集成和保障。OAR中登記的開放資源畢竟有限, 為保障該領域開放學術資源的建設的全面性, 可從OAR登記的資源類型出發, 按類型調研和補充其他來源的開放資源。
資源環境領域有195個OAR, 在該領域開放資源建設工作中如何遴選和收集所有來源的開放資源非常關鍵。從本文分析的OAR基本情況和資源特征看, 可從國家分布、語言分布、OAR類型、資源數量、資源類型、更新頻率、互操作性等特征出發, 確立遴選OAR的標準和優先順序。本文對OAR中開放資源遴選的方法提出兩種建議:一是優先收集和整合以英語語言存儲開放資源、登記資源數量較多、更新頻率快、提供OAI-PMH接口的OAR中的開放資源;二是可僅從資源類型出發, 優先對OAR中某一類型資源實施全部收集和保障, 如優先收集該領域中存儲期刊論文的151個OAR中的期刊論文資源, 再依次收集和保障其他類型的資源。