2017年9月25日 星期一

MySQL: 用正規表達式做資料搜尋、替換和處理

假設今天遇到的資料像是:
Column1 | Column2
中文aaaa | AUTO_INCERMENT

而你需要替換中文欄位的英文字,就可以用 Regex 辦到。

正規表達式查詢

使用 Regex 做查詢 (MySQL 已經支援):

SELECT pharse FROM `glossary` WHERE pharse REGEXP '[A-Za-z]';

這樣就會找出 pharse 欄位符合 REGEXP 的內容。

正規表達式替換

替換比較麻煩,目前 MySQL 還不支援 replace 用 regexp 當參數,因此就要輸入 Procedure (預存函式) 幫我做處理,我參考 stackoverflow 的回答 [1]:
DELIMITER $$
CREATE FUNCTION  `regex_replace`(pattern VARCHAR(1000),replacement VARCHAR(1000),original VARCHAR(1000))

RETURNS VARCHAR(1000)
DETERMINISTIC
BEGIN 
 DECLARE temp VARCHAR(1000); 
 DECLARE ch VARCHAR(1); 
 DECLARE i INT;
 SET i = 1;
 SET temp = '';
 IF original REGEXP pattern THEN 
  loop_label: LOOP 
   IF i>CHAR_LENGTH(original) THEN
    LEAVE loop_label;  
   END IF;
   SET ch = SUBSTRING(original,i,1);
   IF NOT ch REGEXP pattern THEN
    SET temp = CONCAT(temp,ch);
   ELSE
    SET temp = CONCAT(temp,replacement);
   END IF;
   SET i=i+1;
  END LOOP;
 ELSE
  SET temp = original;
 END IF;
 RETURN temp;
END$$
DELIMITER ;

輸入後,用法是這樣的:

regex_replace('正規表達式', '替換的內容', 資料);
regex_replace('[A-Za-z]', '', '你可以替換ABC__變成空的');
這樣就可以把資料換掉。

實際  UPDATE 全部資料,移除英文字可以用:
UPDATE `glossary` SET pharse=regex_replace('[A-Za-z]','',pharse) WHERE pharse REGEXP '[A-Za-z]'


Reference:
[1] https://stackoverflow.com/questions/22421840/mysql-regex-search-and-replace
[2] https://github.com/hholzgra/mysql-udf-regexp

沒有留言:

張貼留言

© Mac Taylor, 歡迎自由轉貼。
Background Email Pattern by Toby Elliott
Since 2014