十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營(yíng)維護(hù)+專業(yè)推廣+無(wú)憂售后,網(wǎng)站問(wèn)題一站解決
本文是寫給有 SQL 基礎(chǔ),而對(duì)于 pandas 的 API 不夠熟悉的同學(xué)的。將各種常見的 SQL 操作“翻譯”成 pandas 的形式,從而便于數(shù)據(jù)處理。
成都創(chuàng)新互聯(lián)公司成立與2013年,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目做網(wǎng)站、成都網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元松原做網(wǎng)站,已為上家服務(wù),為松原各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108
首先建立兩個(gè)表,年齡國(guó)籍表和性別表,兩者可以通過(guò) name 字段進(jìn)行關(guān)聯(lián)。
t1 數(shù)據(jù)如下:
t2 數(shù)據(jù)如下:
用 SQL 來(lái)實(shí)現(xiàn)是:
而在 pandas 中,join 被稱為 merge。其中 on 表示兩個(gè)表用于關(guān)聯(lián)的鍵。how 表示 join 的方式,支持 {‘left’, ‘right’, ‘outer’, ‘inner’} 四個(gè)選項(xiàng),分別對(duì)應(yīng) SQL 的 left join、right join、outer join、inner join。
能匹配到 name 的就會(huì)補(bǔ)充上 gender,Kim 在性別表差不到數(shù)據(jù),因此填充來(lái)一個(gè) NaN 表示空值。
遇到兩個(gè)表需要關(guān)聯(lián)的字段不同名,在 SQL 中只需要修改 on 后面的條件即可。
假如把 t1 的 name 換一個(gè)名字,那么就不能直接用 on='name' 來(lái)進(jìn)行關(guān)聯(lián)了。先使用 rename 方法更改列名,然后再次左聯(lián)。
輸出:
新增一個(gè)年齡表:
表內(nèi)容:
如果不對(duì) age 兩個(gè)同名字段進(jìn)行處理,pandas 會(huì)自動(dòng)添加后綴,一個(gè)是 _x,另一個(gè)是 _y:
如果想要自定義后綴,那么可以:
于是上表的 age_x 和 age_y 就變成 age_left 和 age_right 了。
pandas 的 join 和 SQL 的 join 不太一樣。默認(rèn)行為是直接根據(jù) index 進(jìn)行關(guān)聯(lián)。你可以理解為直接把兩個(gè)表左右拼接在一起。
可以看到是直接根據(jù) index 序號(hào)進(jìn)行左右拼接。
如果存在名字相同的列則需要指明后綴,否則會(huì)報(bào) ValueError。
將兩個(gè)表上下拼接起來(lái)的操作。
結(jié)果如下:
注意,該操作不會(huì)做任何去重,只是單純的拼接而已。
例如要求男性和女性兩組的平均年齡。先關(guān)聯(lián) t1 和 t2 然后 group by 即可:
如果用 SQL 實(shí)現(xiàn):
同時(shí)查看最小值和最大值:
其中 ['age'] 表示只輸出 age 字段。agg 表示聚合,對(duì)于內(nèi)置函數(shù)需要用引號(hào),這里分別計(jì)算兩個(gè)組的最小值和最大值。
SQL版本:
這里是體現(xiàn) Python 比 SQL 強(qiáng)大的地方了。你可以寫自定義的聚合函數(shù)。比如我要計(jì)算每組的奇數(shù)個(gè)數(shù)。注意,由于是聚合函數(shù),因此傳入的參數(shù)是 Series 對(duì)象,即一列數(shù)據(jù),因此要用對(duì)應(yīng)的方法。用數(shù)學(xué)語(yǔ)言來(lái)說(shuō),這里處理的是向量,而不是標(biāo)量。
s % 2 是對(duì)輸入的向量的每一個(gè)元素進(jìn)行除2求余數(shù),然后用內(nèi)置聚合函數(shù) sum 加總,由于奇數(shù)的余數(shù)是1,而偶數(shù)的余數(shù)是0,因此這個(gè)求和數(shù)就是奇數(shù)的個(gè)數(shù)。傳參到 agg 方法只需要把 is_odd 函數(shù)放入列表即可,由于不是內(nèi)置函數(shù),因此不需要加引號(hào)。
暫時(shí)寫到這里,后面如果用到其他地方再繼續(xù)補(bǔ)充。
要看你的數(shù)據(jù)庫(kù)里存的是什么格式的,如果是unicode的話:
sql="select * from t.branch where name='河南'".decode('utf8')
如果是gb系列編碼的話:
sql="select * from t.branch where name='河南'".decode('utf8').encode('gb18030')
python可以利用pymysql模塊操作數(shù)據(jù)庫(kù)。
什么是 PyMySQL?
PyMySQL 是在 Python3.x 版本中用于連接 MySQL 服務(wù)器的一個(gè)庫(kù),Python2中則使用mysqldb。
PyMySQL 遵循 Python 數(shù)據(jù)庫(kù) API v2.0 規(guī)范,并包含了 pure-Python MySQL 客戶端庫(kù)。
PyMySQL 安裝
在使用 PyMySQL 之前,我們需要確保 PyMySQL 已安裝。
PyMySQL 下載地址:。
如果還未安裝,我們可以使用以下命令安裝最新版的 PyMySQL:
$ pip3 install PyMySQL
如果你的系統(tǒng)不支持 pip 命令,可以使用以下方式安裝:
1、使用 git 命令下載安裝包安裝(你也可以手動(dòng)下載):
$ git clone cd PyMySQL/$ python3 setup.py install
2、如果需要制定版本號(hào),可以使用 curl 命令來(lái)安裝:
$ # X.X 為 PyMySQL 的版本號(hào)$ curl -L | tar xz$ cd PyMySQL*$ python3 setup.py install
$ # 現(xiàn)在你可以刪除 PyMySQL* 目錄
注意:請(qǐng)確保您有root權(quán)限來(lái)安裝上述模塊。
安裝的過(guò)程中可能會(huì)出現(xiàn)"ImportError: No module named setuptools"的錯(cuò)誤提示,意思是你沒有安裝setuptools,你可以訪問(wèn)?找到各個(gè)系統(tǒng)的安裝方法。
Linux 系統(tǒng)安裝實(shí)例:
$ wget python3 ez_setup.py
數(shù)據(jù)庫(kù)連接
連接數(shù)據(jù)庫(kù)前,請(qǐng)先確認(rèn)以下事項(xiàng):
您已經(jīng)創(chuàng)建了數(shù)據(jù)庫(kù) TESTDB.
在TESTDB數(shù)據(jù)庫(kù)中您已經(jīng)創(chuàng)建了表 EMPLOYEE
EMPLOYEE表字段為 FIRST_NAME, LAST_NAME, AGE, SEX 和 INCOME。
連接數(shù)據(jù)庫(kù)TESTDB使用的用戶名為 "testuser" ,密碼為 "test123",你可以可以自己設(shè)定或者直接使用root用戶名及其密碼,Mysql數(shù)據(jù)庫(kù)用戶授權(quán)請(qǐng)使用Grant命令。
在你的機(jī)子上已經(jīng)安裝了 Python MySQLdb 模塊。
如果您對(duì)sql語(yǔ)句不熟悉,可以訪問(wèn)我們的?SQL基礎(chǔ)教程
實(shí)例:
以下實(shí)例鏈接 Mysql 的 TESTDB 數(shù)據(jù)庫(kù):
實(shí)例(Python 3.0+)
#!/usr/bin/python3
import pymysql
# 打開數(shù)據(jù)庫(kù)連接db = pymysql.connect("localhost","testuser","test123","TESTDB" )
# 使用 cursor() 方法創(chuàng)建一個(gè)游標(biāo)對(duì)象 cursorcursor = db.cursor()
# 使用 execute() ?方法執(zhí)行 SQL 查詢 cursor.execute("SELECT VERSION()")
# 使用 fetchone() 方法獲取單條數(shù)據(jù).data = cursor.fetchone()
print ("Database version : %s " % data)
# 關(guān)閉數(shù)據(jù)庫(kù)連接db.close()
執(zhí)行以上腳本輸出結(jié)果如下:
Database version : 5.5.20-log
創(chuàng)建數(shù)據(jù)庫(kù)表
如果數(shù)據(jù)庫(kù)連接存在我們可以使用execute()方法來(lái)為數(shù)據(jù)庫(kù)創(chuàng)建表,如下所示創(chuàng)建表EMPLOYEE:
實(shí)例(Python 3.0+)
#!/usr/bin/python3
import pymysql
# 打開數(shù)據(jù)庫(kù)連接db = pymysql.connect("localhost","testuser","test123","TESTDB" )
# 使用 cursor() 方法創(chuàng)建一個(gè)游標(biāo)對(duì)象 cursorcursor = db.cursor()
# 使用 execute() 方法執(zhí)行 SQL,如果表存在則刪除cursor.execute("DROP TABLE IF EXISTS EMPLOYEE")
# 使用預(yù)處理語(yǔ)句創(chuàng)建表sql = """CREATE TABLE EMPLOYEE (
? ? FIRST_NAME ?CHAR(20) NOT NULL,
? ? LAST_NAME ?CHAR(20),
? ? AGE INT, ?
? ? SEX CHAR(1),
? ? INCOME FLOAT )"""
cursor.execute(sql)
# 關(guān)閉數(shù)據(jù)庫(kù)連接db.close()
數(shù)據(jù)庫(kù)插入操作
以下實(shí)例使用執(zhí)行 SQL INSERT 語(yǔ)句向表 EMPLOYEE 插入記錄:
實(shí)例(Python 3.0+)
#!/usr/bin/python3
import pymysql
# 打開數(shù)據(jù)庫(kù)連接db = pymysql.connect("localhost","testuser","test123","TESTDB" )
# 使用cursor()方法獲取操作游標(biāo) cursor = db.cursor()
# SQL 插入語(yǔ)句sql = """INSERT INTO EMPLOYEE(FIRST_NAME,
? ? LAST_NAME, AGE, SEX, INCOME)
? ? VALUES ('Mac', 'Mohan', 20, 'M', 2000)"""try: ? # 執(zhí)行sql語(yǔ)句
cursor.execute(sql)
# 提交到數(shù)據(jù)庫(kù)執(zhí)行
db.commit()except: ? # 如果發(fā)生錯(cuò)誤則回滾
db.rollback()
# 關(guān)閉數(shù)據(jù)庫(kù)連接db.close()
以上例子也可以寫成如下形式:
實(shí)例(Python 3.0+)
#!/usr/bin/python3
import pymysql
# 打開數(shù)據(jù)庫(kù)連接db = pymysql.connect("localhost","testuser","test123","TESTDB" )
# 使用cursor()方法獲取操作游標(biāo) cursor = db.cursor()
# SQL 插入語(yǔ)句sql = "INSERT INTO EMPLOYEE(FIRST_NAME, \
? LAST_NAME, AGE, SEX, INCOME) \
? VALUES ('%s', '%s', ?%s, ?'%s', ?%s)" % \ ? ? ? ('Mac', 'Mohan', 20, 'M', 2000)try: ? # 執(zhí)行sql語(yǔ)句
cursor.execute(sql)
# 執(zhí)行sql語(yǔ)句
db.commit()except: ? # 發(fā)生錯(cuò)誤時(shí)回滾
db.rollback()
# 關(guān)閉數(shù)據(jù)庫(kù)連接db.close()
以下代碼使用變量向SQL語(yǔ)句中傳遞參數(shù):
..................................user_id = "test123"password = "password"con.execute('insert into Login values( %s, ?%s)' % \ ? ? ? ? ? ? (user_id, password))..................................
數(shù)據(jù)庫(kù)查詢操作
Python查詢Mysql使用 fetchone() 方法獲取單條數(shù)據(jù), 使用fetchall() 方法獲取多條數(shù)據(jù)。
fetchone():?該方法獲取下一個(gè)查詢結(jié)果集。結(jié)果集是一個(gè)對(duì)象
fetchall():?接收全部的返回結(jié)果行.
rowcount:?這是一個(gè)只讀屬性,并返回執(zhí)行execute()方法后影響的行數(shù)。
實(shí)例:
查詢EMPLOYEE表中salary(工資)字段大于1000的所有數(shù)據(jù):
實(shí)例(Python 3.0+)
#!/usr/bin/python3
import pymysql
# 打開數(shù)據(jù)庫(kù)連接db = pymysql.connect("localhost","testuser","test123","TESTDB" )
# 使用cursor()方法獲取操作游標(biāo) cursor = db.cursor()
# SQL 查詢語(yǔ)句sql = "SELECT * FROM EMPLOYEE \
? WHERE INCOME %s" % (1000)try: ? # 執(zhí)行SQL語(yǔ)句
cursor.execute(sql)
# 獲取所有記錄列表
results = cursor.fetchall()
for row in results: ? ? ?fname = row[0]
?lname = row[1]
?age = row[2]
?sex = row[3]
?income = row[4]
? # 打印結(jié)果
?print ("fname=%s,lname=%s,age=%s,sex=%s,income=%s" % \ ? ? ? ? ? ? (fname, lname, age, sex, income ))except: ? print ("Error: unable to fetch data")
# 關(guān)閉數(shù)據(jù)庫(kù)連接db.close()
以上腳本執(zhí)行結(jié)果如下:
fname=Mac, lname=Mohan, age=20, sex=M, income=2000
數(shù)據(jù)庫(kù)更新操作
更新操作用于更新數(shù)據(jù)表的的數(shù)據(jù),以下實(shí)例將 TESTDB 表中 SEX 為 'M' 的 AGE 字段遞增 1:
實(shí)例(Python 3.0+)
#!/usr/bin/python3
import pymysql
# 打開數(shù)據(jù)庫(kù)連接db = pymysql.connect("localhost","testuser","test123","TESTDB" )
# 使用cursor()方法獲取操作游標(biāo) cursor = db.cursor()
# SQL 更新語(yǔ)句sql = "UPDATE EMPLOYEE SET AGE = AGE + 1 WHERE SEX = '%c'" % ('M')try: ? # 執(zhí)行SQL語(yǔ)句
cursor.execute(sql)
# 提交到數(shù)據(jù)庫(kù)執(zhí)行
db.commit()except: ? # 發(fā)生錯(cuò)誤時(shí)回滾
db.rollback()
# 關(guān)閉數(shù)據(jù)庫(kù)連接db.close()
刪除操作
刪除操作用于刪除數(shù)據(jù)表中的數(shù)據(jù),以下實(shí)例演示了刪除數(shù)據(jù)表 EMPLOYEE 中 AGE 大于 20 的所有數(shù)據(jù):
實(shí)例(Python 3.0+)
#!/usr/bin/python3
import pymysql
# 打開數(shù)據(jù)庫(kù)連接db = pymysql.connect("localhost","testuser","test123","TESTDB" )
# 使用cursor()方法獲取操作游標(biāo) cursor = db.cursor()
# SQL 刪除語(yǔ)句sql = "DELETE FROM EMPLOYEE WHERE AGE %s" % (20)try: ? # 執(zhí)行SQL語(yǔ)句
cursor.execute(sql)
# 提交修改
db.commit()except: ? # 發(fā)生錯(cuò)誤時(shí)回滾
db.rollback()
# 關(guān)閉連接db.close()
執(zhí)行事務(wù)
事務(wù)機(jī)制可以確保數(shù)據(jù)一致性。
事務(wù)應(yīng)該具有4個(gè)屬性:原子性、一致性、隔離性、持久性。這四個(gè)屬性通常稱為ACID特性。
原子性(atomicity)。一個(gè)事務(wù)是一個(gè)不可分割的工作單位,事務(wù)中包括的諸操作要么都做,要么都不做。
一致性(consistency)。事務(wù)必須是使數(shù)據(jù)庫(kù)從一個(gè)一致性狀態(tài)變到另一個(gè)一致性狀態(tài)。一致性與原子性是密切相關(guān)的。
隔離性(isolation)。一個(gè)事務(wù)的執(zhí)行不能被其他事務(wù)干擾。即一個(gè)事務(wù)內(nèi)部的操作及使用的數(shù)據(jù)對(duì)并發(fā)的其他事務(wù)是隔離的,并發(fā)執(zhí)行的各個(gè)事務(wù)之間不能互相干擾。
持久性(durability)。持續(xù)性也稱永久性(permanence),指一個(gè)事務(wù)一旦提交,它對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)的改變就應(yīng)該是永久性的。接下來(lái)的其他操作或故障不應(yīng)該對(duì)其有任何影響。
Python DB API 2.0 的事務(wù)提供了兩個(gè)方法 commit 或 rollback。
實(shí)例
實(shí)例(Python 3.0+)
# SQL刪除記錄語(yǔ)句sql = "DELETE FROM EMPLOYEE WHERE AGE %s" % (20)try: ? # 執(zhí)行SQL語(yǔ)句
cursor.execute(sql)
# 向數(shù)據(jù)庫(kù)提交
db.commit()except: ? # 發(fā)生錯(cuò)誤時(shí)回滾
db.rollback()
對(duì)于支持事務(wù)的數(shù)據(jù)庫(kù), 在Python數(shù)據(jù)庫(kù)編程中,當(dāng)游標(biāo)建立之時(shí),就自動(dòng)開始了一個(gè)隱形的數(shù)據(jù)庫(kù)事務(wù)。
commit()方法游標(biāo)的所有更新操作,rollback()方法回滾當(dāng)前游標(biāo)的所有操作。每一個(gè)方法都開始了一個(gè)新的事務(wù)。
錯(cuò)誤處理
DB API中定義了一些數(shù)據(jù)庫(kù)操作的錯(cuò)誤及異常,下表列出了這些錯(cuò)誤和異常:
異常
描述
Warning ? ?當(dāng)有嚴(yán)重警告時(shí)觸發(fā),例如插入數(shù)據(jù)是被截?cái)嗟鹊?。必須?StandardError 的子類。 ?
Error ? ?警告以外所有其他錯(cuò)誤類。必須是 StandardError 的子類。 ?
InterfaceError ? ?當(dāng)有數(shù)據(jù)庫(kù)接口模塊本身的錯(cuò)誤(而不是數(shù)據(jù)庫(kù)的錯(cuò)誤)發(fā)生時(shí)觸發(fā)。 必須是Error的子類。 ?
DatabaseError ? ?和數(shù)據(jù)庫(kù)有關(guān)的錯(cuò)誤發(fā)生時(shí)觸發(fā)。 必須是Error的子類。 ?
DataError ? ?當(dāng)有數(shù)據(jù)處理時(shí)的錯(cuò)誤發(fā)生時(shí)觸發(fā),例如:除零錯(cuò)誤,數(shù)據(jù)超范圍等等。 必須是DatabaseError的子類。 ?
OperationalError ? ?指非用戶控制的,而是操作數(shù)據(jù)庫(kù)時(shí)發(fā)生的錯(cuò)誤。例如:連接意外斷開、 數(shù)據(jù)庫(kù)名未找到、事務(wù)處理失敗、內(nèi)存分配錯(cuò)誤等等操作數(shù)據(jù)庫(kù)是發(fā)生的錯(cuò)誤。 必須是DatabaseError的子類。 ?
IntegrityError ? ?完整性相關(guān)的錯(cuò)誤,例如外鍵檢查失敗等。必須是DatabaseError子類。 ?
InternalError ? ?數(shù)據(jù)庫(kù)的內(nèi)部錯(cuò)誤,例如游標(biāo)(cursor)失效了、事務(wù)同步失敗等等。 必須是DatabaseError子類。 ?
ProgrammingError ? ?程序錯(cuò)誤,例如數(shù)據(jù)表(table)沒找到或已存在、SQL語(yǔ)句語(yǔ)法錯(cuò)誤、 參數(shù)數(shù)量錯(cuò)誤等等。必須是DatabaseError的子類。 ?
NotSupportedError ? ?不支持錯(cuò)誤,指使用了數(shù)據(jù)庫(kù)不支持的函數(shù)或API等。例如在連接對(duì)象上 使用.rollback()函數(shù),然而數(shù)據(jù)庫(kù)并不支持事務(wù)或者事務(wù)已關(guān)閉。 必須是DatabaseError的子類。 ?