當我們建立一個數(shù)據(jù)庫時,并且想將分散在各處的不同類型的數(shù)據(jù)庫分類匯總在這個新建的數(shù)據(jù)庫中時,尤其是在進行數(shù)據(jù)檢驗、凈化和轉(zhuǎn)換時,將會面臨很大的挑戰(zhàn)。幸好SQL Server為我們提供了強大、豐富的數(shù)據(jù)導入導出功能,并且在導入導出的同時可以對數(shù)據(jù)進行靈活的處理。
在SQL Server中主要有三種方式導入導出數(shù)據(jù):使用Transact-SQL對數(shù)據(jù)進行處理;調(diào)用命令行工具BCP處理數(shù)據(jù);使用數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)對數(shù)據(jù)進行處理。這三種方法各有其特點,下面就它們的主要特點進行比較。
一、使用方式的比較
1. 使用Transact-SQL進行數(shù)據(jù)導入導出
我們很容易看出,Transact-SQL方法就是通過SQL語句方式將相同或不同類型的數(shù)據(jù)庫中的數(shù)據(jù)互相導入導出或者匯集在一處的方法。如果是在不同的SQL Server數(shù)據(jù)庫之間進行數(shù)據(jù)導入導出,那將是非常容易做到的。一般可使用SELECT INTO FROM和INSERT INTO。使用 SELECT INTO FROM時INTO后跟的表必須存在,也就是說它的功能是在導數(shù)據(jù)之前先建立一個空表,然后再將源表中的數(shù)據(jù)導入到新建的空表中,這就相當于表的復(fù)制(并不會復(fù)制表的索引等信息)。而INSERT INTO的功能是將源數(shù)據(jù)插入到已經(jīng)存在的表中,可以使用它進行數(shù)據(jù)合并,如果要更新已經(jīng)存在的記錄,可以使用UPDATE。
SELECT * INTO table2 FROM table1 --table1和table2的表結(jié)構(gòu)相同 INSERT INTO table2 SELECT * FROM table3 --table2和table3的表結(jié)構(gòu)相同 |
當在異構(gòu)數(shù)據(jù)庫之間的進行數(shù)據(jù)導入導出時,情況會變得復(fù)雜得多。首先要解決的是如何打開非SQL Server數(shù)據(jù)庫的問題。
在SQL Server中提供了兩個函數(shù)可以根據(jù)各種類型數(shù)據(jù)庫的OLE DB Provider打開并操作這些數(shù)據(jù)庫,這兩個函數(shù)是OPENDATASOURCE和OPENROWSET。它們的功能基本上相同,不同之處主要有兩點。
(1) 調(diào)用方式不同。
OPENDATASOURCE的參數(shù)有兩個,分別是OLE DB Provider和連接字符串。使用OPENDATASOURCE只相當于引用數(shù)據(jù)庫或者是服務(wù)(對于SQL Server、Oracle等數(shù)據(jù)庫來說)。要想引用其中的數(shù)據(jù)表或視圖,必須在OPENDATASOURCE(...)后進行引用。
在SQL Server中通過OPENDATASOURCE查詢Access數(shù)據(jù)庫abc.mdb中的table1表 SELECT * FROM OPENDATASOURCE('Microsoft.Jet.OLEDB.4.0', 'Provider=Microsoft.Jet.OLEDB.4.0;Data Source=abc.mdb;Persist Security Info=False')... table1 OPENROWSET相當于一個記錄集,可以將直接當成一個表或視圖使用。 在SQL Server中通過OPENROWSETE查詢Access數(shù)據(jù)庫abc.mdb中的table1表 SELECT * FROM OPENROWSET('Microsoft.Jet.OLEDB.4.0', 'abc.mdb'; 'admin';'','SELECT * FROM table1') |
(2) 靈活度不同。
2. 使用命令行BCP導入導出數(shù)據(jù)
很多大型的系統(tǒng)不僅僅提供了友好的圖形用戶接口,同時也提供了命令行方式對系統(tǒng)進行控制。在SQL Server中除了可以使用SQL語句對數(shù)據(jù)進行操作外,還可以使用一個命令行工具BCP對數(shù)據(jù)進行同樣的操作。BCP是基于DB-Library 客戶端庫的工具。它的功能十分強大,BCP能夠以并行方式將數(shù)據(jù)從多個客戶端大容量復(fù)制到單個表中,從而大大提高了裝載效率。但在執(zhí)行并行操作時要注意的是只有使用基于 ODBC 或 SQL OLE DB 的 API 的應(yīng)用程序才可以執(zhí)行將數(shù)據(jù)并行裝載到單個表中的操作。
BCP可以將SQL Server中的數(shù)據(jù)導出到任何OLE DB所支持的數(shù)據(jù)庫的,如下面的語句是將authors表導出到excel文件中
bcp pubs.dbo.authors out c:\temp1.xls -c -q -S"GNETDATA/GNETDATA" -U"sa" -P"password" |
BCP不僅能夠通過命令行執(zhí)行,同時也可以通過SQL執(zhí)行,這需要一個系統(tǒng)存儲過程xp_cmdshell來實現(xiàn),如上面的命令可改寫為如下形式。
EXEC master..xp_cmdshell 'bcp pubs.dbo.authors out c:\temp1.xls -c -q -S"GNETDATA/GNETDATA" -U"sa" -P"password"' |
3. 使用數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)導入導出數(shù)據(jù)
DTS是SQL Server中導入導出數(shù)據(jù)的核心,它除有具有SQL和命令行工具BCP相應(yīng)的功能外,還可以靈活地通過VBScript、JScript等腳本語言對數(shù)據(jù)進行檢驗、凈化和轉(zhuǎn)換。
SQL Server為DTS提供了圖形用戶接口,用戶可以使用圖形界面導入導出數(shù)據(jù),并對數(shù)據(jù)進行相應(yīng)的處理。同時,DTS還以com組件的形式提供編程接口,也就是說任何支持com組件的開發(fā)工具都可以利用com組件使用DTS所提供的功能。DTS在SQL Server中可以保存為不同的形式,可以是包的形式,也可以保存成Visual Basic源程序文件,這樣只要在VB中編譯便可以使用DTS com組件了。
DTS和其它數(shù)據(jù)導入導出方式最大的不同就是它可以在處理數(shù)據(jù)的過程中對每一行數(shù)據(jù)進行深度處理。以下是一段VBScript代碼,這段代碼在處DTS理每一條記錄時執(zhí)行,DTSDestination表示目標記錄,DTSSource表示源記錄,在處理“婚姻狀況”時,將源記錄中的“婚姻狀況”中的0或1轉(zhuǎn)換成目標記錄中“已婚”或“未婚”。
Function Main() DTSDestination("姓名") = DTSSource("姓名") DTSDestination("年齡") = DTSSource("年齡") If DTSDestination("婚姻狀況") = 1 Then DTSDestination("婚姻狀況") = "已婚" Else DTSDestination("婚姻狀況") = "未婚" End If Main = DTSTransformStat_OK End Function |
二、性能的比較
使用Transact-SQL方式。如果是SQL Server數(shù)據(jù)庫之間的導入導出,速度將非???,但是使用OPENDATASOURCE和OPENROWSET方法利用OLE DB Provider打開并操作數(shù)據(jù)庫時速度會慢一些。
使用BCP命令方式。如果不需要對數(shù)據(jù)進行驗證等操作的話,使用它還是非??斓?,這是因為它的內(nèi)部使用c接口的DB-library,所以在操作數(shù)據(jù)庫時速度有很大的提升。
使用DTS方式導數(shù)據(jù)應(yīng)該是最好的方式了。由于它整合了Microsoft Universal Data Access技術(shù)與Microsoft ActiveX技術(shù),因此不僅可以靈活地處理數(shù)據(jù),而且在數(shù)據(jù)導入導出的效率是非常高的。
總結(jié)
SQL Server提供了豐富的數(shù)據(jù)導入導出方法,這給我們提供了更多的選擇,但是這又會給我們帶來一個新問題:如何根據(jù)具體情況選擇合適的數(shù)據(jù)導入導出方法呢?我在這里提供一些個人的建議,希望能對讀者起到一定的指導作用。
如果是在SQL Server數(shù)據(jù)庫之間進行數(shù)據(jù)導入導出時,并且不需要對數(shù)據(jù)進行復(fù)雜的檢驗,最好使用Transact-SQL方法進行處理,因為在SQL Server數(shù)據(jù)庫之間進行數(shù)據(jù)操作時,SQL是非??斓?。當然,如果要進行復(fù)雜的操作,如數(shù)據(jù)檢驗、轉(zhuǎn)換等操作時,最好還是使用DTS進行處理,因為DTS不光導數(shù)據(jù)效率高,而且能夠?qū)?shù)據(jù)進行深度控制。但是DTS的編程接口是基于com的,并且這個接口十分復(fù)雜,因此,使用程序調(diào)用DTS將變也會變得很復(fù)雜,因此, 當數(shù)據(jù)量不是很大,并且想將數(shù)據(jù)導入導出功能加入到程序中,而且沒有復(fù)雜的數(shù)據(jù)處理功能時,可以使用OPENDATASOURCE或OPENROWSET進行處理。