`

使用正则表达式过滤url链接

阅读更多
//不强制匹配
//Pattern p = Pattern.compile("^(http|www|ftp|)?(://)?(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*((:\\d+)?)(/(\\w+(-\\w+)*))*(\\.?(\\w)*)(\\?)?(((\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*(\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*)*(\\w*)*)$",Pattern.CASE_INSENSITIVE );
String cc = "是电风扇的http://www.11soso.com/个电饭锅电饭锅";
		
		Pattern p = Pattern.compile("(http|www|ftp|)?(://)?(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*((:\\d+)?)(/(\\w+(-\\w+)*))*(\\.?(\\w)*)(\\?)?(((\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*(\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*)*(\\w*)*)",Pattern.CASE_INSENSITIVE ); 
        Matcher m = p.matcher(cc); 
        //cc = m.replaceAll("");
        //System.out.println(cc);
        
          
          if(m.find()){  
              System.out.println(m.group());  
          }  

 

 

如果需要强制匹配的话,把正则改下就行了

Pattern p = Pattern.compile("^(http|www|ftp|)?(://)?(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*((:\\d+)?)(/(\\w+(-\\w+)*))*(\\.?(\\w)*)(\\?)?(((\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*(\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*)*(\\w*)*)$",Pattern.CASE_INSENSITIVE );

 

如果要检查多个URL链接就用while循环就行

while(m.find()){  
              System.out.println(m.group());  
          }  

 

分享到:
评论

相关推荐

    link-snag:从给定url中的标签返回链接的数组,可以通过正则表达式过滤

    ===============返回给定URL中标记的链接数组,可以通过正则表达式过滤 版本0.1.1 用法 var snagger = require ( 'html-link-snag' ) ; snagger . links ( 'http://www.google.com' , '^(?:[a-z]+:)?//' ) . then ...

    php使用正则表达式获取字符串中的URL

    今天写一个问答系统上线之后发现有很多人发链接了,由于业务部门要我们过滤掉网站地址了,下面我给大家分享一个提取字符串url地址函数,代码如下: $str ='本文实例讲述了php匹配字符串里所有URL地址的方法。...

    网页链接检查LinkChecker.zip

    可使用正则表达式对链接的url进行过滤 支持代理服务器 支持用户名和密码验证 遵守 robots.txt 法则 支持 Cookie 支持 HTML 和 CSS 语法检查 反病毒检查 提供命令行和图形界面和Web三种用户接口 ...

    LinkChecker 链接检查工具 v8.4.zip

    可使用正则表达式对链接的url进行过滤 支持代理服务器 支持用户名和密码验证 遵守 robots.txt 法则 支持 Cookie 支持 HTML 和 CSS 语法检查 反病毒检查 提供命令行和图形界面和Web三种用户接口

    Python爬虫抓取指定网页图片代码实例

    (1)方法一:使用正则表达式过滤抓到的 html 内容字符串 # 第一个简单的爬取图片的程序 import urllib.request # python自带的爬操作url的库 import re # 正则表达式 # 该方法传入url,返回url的html的

    g-web-downloader:从链接下载网站

    除了正则表达式过滤器,元过滤器({image}, {javascript}, {css}) 现在已经实现。 它呈现图像资源,包括 jpeg、gif 和 png 资源。 用法 更改 main() 函数以适应您自己的要求,例如从 lua.org 下载 Lua 引用,使用 ...

    LinkChecker 链接检查工具 v8.4

    主要特性:循环遍历和多线程检查输出各种格式检查结果:text, HTML, SQL, CSV, XML支持 HTTP/1.1, HTTPS, FTP, mailto, nntp:, Telnet 和本地文件链接检查可使用正则表达式对链接的url进行过滤支持代理服务器支持...

    IIS服务器SSI(rewrite重写)插件的帮助资料

    ISAPI_Rewrite 是一款适用于IIS的功能强大的基于正则表达式的URL处理模块。它兼容Apache的mod_rewrite的语法,从而使仅仅复制.htaccess文件就把配置从appach移植到IIS中或者从IIS移值到appach中变成可能。请参阅3.2...

    LinkRedirector-crx插件

    链接地址(URL):如果链接的地址与此正则表达式匹配,则将应用该规则。 ;图像地址(img):如果该值存在,则该规则将仅适用于链接在其文本节点中具有的图像与此正则表达式匹配的情况。 ;文本内容(xml):如果此值...

    java解析给定url

    * 正则表达式匹配关键数据 * @param line * @return */ private Set<String> parse(String line) { Set resSet = new LinkedHashSet(); Pattern pattern = Pattern.compile(reg); Matcher matcher = pattern...

    urlrewritefilter-4.0.3.jar

    软件简介 这是urlrewritefilter-...rule结点中from的规则默认使用的是正则表达式来匹配的,当用户访问服务器时的URL会与该配置相比较,如果符合规则就会按照下面to结点中的配置对其进行跳转,其默认是forward跳转。

    基于网络爬虫及用户的协同过滤推荐算法的电影推荐系统.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    就业推荐系统 spark ml 推荐系统 协同过滤 招聘平台 爬虫 毕业设计 大数据技术 招聘信息爬虫 智联招聘.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    基于Python3的12306抢票爬虫,10个线程开抢,智能过滤凌晨12:00到7:00发车的车次。.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫,结果存入mysql。.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    flex3的cookbook书籍完整版dpf(包含目录)

    使用正则表达式创建国际化邮政编码Validator 15.4节. 如何创建一个Validator去验证通用商品代码(UPC) 15.5节. 如何去验证多个Combo Box及Radio Button组件 15.6节. 如何在一个表单内通过ToolTips来返映一个错误 ...

    web项目爬虫过滤器.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

Global site tag (gtag.js) - Google Analytics