控制字符(control character)
看不到但確實存在的幽靈字符,可使用re進行替換,比replace來的方便些
re
檢查控制符號內容
在python3可使用內建函數來查看字符編碼與內容
ord(str):回傳在unicode中的對應編號
chr(int):回傳編號所對應的unicode
目前遇到的幽靈字符範圍如下:
字符
編碼
"\u200b"~"\u200f"
8203~8207
"\u2029"~"\u202e"
8233~8239
"\u2061"~"\u2064"
8289~8292
"\u206a"~"\u206f"
8298~8303
奇怪的空格
字符
編碼
"\u3000"
12288 (全形空格)
"\u202f"
8239
"\u205f"
8287
"\xa0"
160
替換空格
參考資料: https://www.itread01.com/article/1486433903.html https://dotblogs.com.tw/law1009/2013/07/13/109833 https://www.programcreek.com/python/example/144/re.VERBOSE
Last updated