Python正则表达式简介假设你要根据给定的查询搜索某个内容。

文章插图
假设你要根据给定的查询搜索某个内容。如果你只依靠一个字符串，你就得不到你想要的东西。那么，如何在海量信息中寻找你需要的东西呢？
当然，你需要一个模式来识别你想要查找的字符串。为此，我们可以使用正则表达式（Regular Expression ， Regex）。
在本文中，我将向你展示它的概念和应用，以解决数据科学中的问题，特别是使用Python对文本进行预处理。
大纲我将本文分为两个部分：

正则表达式的概念
正则表达式的应用

正则表达式的概念正则表达式，或者我们称之为Regex或RE ，是一种特殊类型的字符串，可用于匹配字符串中的术语或单词。
它由特殊字符序列组成，因此我们可以根据需要使用它来匹配任何术语。这里有几个你可以使用的特殊字符，

点符号（.）匹配字符串中的任何字符，
插入符号（^）与字符串的开头匹配，
美元符号（$）与字符串的结尾匹配，
星号（*）与前一个字符的模式重复零次或多次匹配，
加号（+）匹配前一个字符的一个或多个重复，
问号（？）匹配上一个字符的0或1个重复，
花括号{m ， n}将匹配前一个字符的m或n个重复，
如果要使用标点符号，可以使用反斜杠（\），但它也是一个特殊字符。例如，为了匹配$ ，你应该在“\$”这样的字符前面添加一个反斜杠，
方括号（[]）只能用于包含与字符串匹配的某些字符。假设你想找到包含a、i和r的单词，可以使用类似[air]的模式。

回想一下反斜杠有几个特殊的序列。如果你想包含所有的单词或数字而不把它们都写在方括号内，这是非常有用的。你可以使用这些序列，例如，

\d将匹配任何数字
\s将匹配空白字符
\w将匹配任何字符
\D匹配除数字外的字符
\S匹配除空格外的字符
\W匹配除字符外的字符

对于这些特殊字符，你可以根据要提取的术语组合它们。例如，你想要从tweet列表中检索hashtags ，可以使用类似“#\w+”的模式。
模式的组合也是可以的，因为有一条规则说，
如果一个模式与一个模式结合，就会产生另一个模式。
正则表达式的应用在你了解了Regex的概念之后，现在让我们看看如何将其应用于处理文本。
第一种方法是删除我们不用于处理文本的术语。假设你要对tweet集合进行文本挖掘。因此，在挖掘tweet之前，必须先对它们进行预处理，因为我们希望使我们的计算更有效，并避免其中任何无意义的信息。例如，你有这样一条微博，
#Nasional Wapres: Jumlah Orang Miskin Bertambah Gara-Gara Pandemi Covid-19 有几个术语你想删除，比如提及，标签，链接等。在Python中，我们可以使用一个名为sub的方法从re库中删除这些术语。
我们可以将参数设置到函数中，例如regex格式的模式、用于替换术语的字符串，最后是要处理的字符串。

re.sub(pattern, replacement, data) - pattern: 正则表达式的模式- replacement: 要替换的字符串- data: 要处理的变量或字符串

通过使用这个函数，我们可以像这样使用它

import re# 原始微博tweet = "#Nasional Wapres: Jumlah Orang Miskin Bertambah Gara-Gara Pandemi Covid-19 "# 使用正则表达式进行预处理tweet = re.sub("#\w+", "", tweet)tweet = re.sub("https*.+", "", tweet)print(tweet)# 这是结果,#Wapres: Jumlah Orang Miskin Bertambah Gara-Gara Pandemi Covid-19
上一页
1
2
下一页
		  	





























推荐阅读

           
                  
              
                  「特种兵」现实版的“士兵突击”：他打败欧美13支特种兵，获2次个人一等功 
                
                   
                
              
            

                  
              
                  高考|高考试卷一公布，就知道原来初中这么重要，扎实基础按这四点做起 
                
                   
                
              
            

                  
              
                  时尚|赌王葬礼：原配家成员打扮最随意，有人红头发有人穿背心，究竟哪来的底气？ 
                
                   
                
              
            

                  
              
                  花同学爱拍照|1.78m美女的牛仔优雅风穿搭，腿长一米不是梦 
                
                   
                
              
            

                  
              
                  黎贝卡的异想世界|谁说鼻子塌就不好看了！她们刷新了我对鼻子美的认知 
                
                   
                
              
            

                  
              
                  涂涂画画就能和阿尔法蛋互动游戏，发散孩子思维，轻轻松松学编程 
                
                   
                
              
            

                  
              
                  山西逾68万名学生受益农村义务教育营养改善计划 
                
                   
                
              
            

                  
              
                  淘宝|提前过双11？淘宝突然崩了引热议 官方回应 
                
                   
                
              
            

                  
              
                  荣耀手机|6400万广角长焦微距四摄，8+128GB+40W华为中端机已降至2099 
                
                   
                
              
            

                  
              
                  吆唱娱乐菌：somi迷之自信成全申宥娜的幸运 
                
                   
                
              
            

                  
              
                  『手机大魔王』小米新系统引发恐慌，如果系统不安全，你还会继续用吗？ 
                
                   
                
              
            

                  
              
                  美国|确诊病例上升100万仅用17天，美国专家反思疫情应对 
                
                   
                
              
            

                  
              
                  Sora到底怎么样？第一批试用者这样说！ 
                
                   
                
              
            

                  
              
                  井冈翠绿茶叶传说典故,井冈翠绿 
                
                   
                
              
            

                  
              
                  陈萌|陈萌自曝被闺蜜劝分，为朱小伟跟其断绝来往，称防火防盗防闺蜜 
                
                   
                
              
            

                  
              
                  功夫红茶喝了能减肥吗,姜红茶能减肥吗 
                
                   
                
              
            

                  
              
                  itMode|马丁靴＋裙子，马丁靴＋工装裤：又酷又撩，时髦炸了！ 
                
                   
                
              
            

                  
              
                  科技天天侃 华为无奈接受现实，后路还有一条，雪上加霜！联发科突然宣布 
                
                   
                
              
            

                  
              
                  【北京办公窗帘】北京办公窗帘制作公司哪个好 
                
                   
                
              
            

                  
              
                  娱乐掮客|前面一美女点了一碗水饺。，幽默笑话：在快餐店排队 
                
                   
                
              
            

          

计算机专业大一下学期，该选择学习Java还是Python 

想自学Python来开发爬虫，需要按照哪几个阶段制定学习计划 

未来想进入AI领域，该学习Python还是Java大数据开发 

2021年Java和Python的应用趋势会有什么变化？ 

非计算机专业的本科生，想利用寒假学习Python，该怎么入手 

用Python制作图片验证码，这三行代码完事儿 

历时 1 个月，做了 10 个 Python 可视化动图，用心且精美... 

为何在人工智能研发领域Python应用比较多 

对于非计算机专业的同学来说，该选择学习Python还是C 

学习完Python之后，如何向人工智能领域发展