//不强制匹配 //Pattern p = Pattern.compile("^(http|www|ftp|)?(://)?(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*((:\\d+)?)(/(\\w+(-\\w+)*))*(\\.?(\\w)*)(\\?)?(((\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*(\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*)*(\\w*)*)$",Pattern.CASE_INSENSITIVE ); String cc = "是电风扇的http://www.11soso.com/个电饭锅电饭锅"; Pattern p = Pattern.compile("(http|www|ftp|)?(://)?(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*((:\\d+)?)(/(\\w+(-\\w+)*))*(\\.?(\\w)*)(\\?)?(((\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*(\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*)*(\\w*)*)",Pattern.CASE_INSENSITIVE ); Matcher m = p.matcher(cc); //cc = m.replaceAll(""); //System.out.println(cc); if(m.find()){ System.out.println(m.group()); }
如果需要强制匹配的话,把正则改下就行了
Pattern p = Pattern.compile("^(http|www|ftp|)?(://)?(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*((:\\d+)?)(/(\\w+(-\\w+)*))*(\\.?(\\w)*)(\\?)?(((\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*(\\w*%)*(\\w*\\?)*(\\w*:)*(\\w*\\+)*(\\w*\\.)*(\\w*&)*(\\w*-)*(\\w*=)*)*(\\w*)*)$",Pattern.CASE_INSENSITIVE );
如果要检查多个URL链接就用while循环就行
while(m.find()){ System.out.println(m.group()); }
相关推荐
===============返回给定URL中标记的链接数组,可以通过正则表达式过滤 版本0.1.1 用法 var snagger = require ( 'html-link-snag' ) ; snagger . links ( 'http://www.google.com' , '^(?:[a-z]+:)?//' ) . then ...
今天写一个问答系统上线之后发现有很多人发链接了,由于业务部门要我们过滤掉网站地址了,下面我给大家分享一个提取字符串url地址函数,代码如下: $str ='本文实例讲述了php匹配字符串里所有URL地址的方法。...
可使用正则表达式对链接的url进行过滤 支持代理服务器 支持用户名和密码验证 遵守 robots.txt 法则 支持 Cookie 支持 HTML 和 CSS 语法检查 反病毒检查 提供命令行和图形界面和Web三种用户接口 ...
可使用正则表达式对链接的url进行过滤 支持代理服务器 支持用户名和密码验证 遵守 robots.txt 法则 支持 Cookie 支持 HTML 和 CSS 语法检查 反病毒检查 提供命令行和图形界面和Web三种用户接口
(1)方法一:使用正则表达式过滤抓到的 html 内容字符串 # 第一个简单的爬取图片的程序 import urllib.request # python自带的爬操作url的库 import re # 正则表达式 # 该方法传入url,返回url的html的
除了正则表达式过滤器,元过滤器({image}, {javascript}, {css}) 现在已经实现。 它呈现图像资源,包括 jpeg、gif 和 png 资源。 用法 更改 main() 函数以适应您自己的要求,例如从 lua.org 下载 Lua 引用,使用 ...
主要特性:循环遍历和多线程检查输出各种格式检查结果:text, HTML, SQL, CSV, XML支持 HTTP/1.1, HTTPS, FTP, mailto, nntp:, Telnet 和本地文件链接检查可使用正则表达式对链接的url进行过滤支持代理服务器支持...
ISAPI_Rewrite 是一款适用于IIS的功能强大的基于正则表达式的URL处理模块。它兼容Apache的mod_rewrite的语法,从而使仅仅复制.htaccess文件就把配置从appach移植到IIS中或者从IIS移值到appach中变成可能。请参阅3.2...
链接地址(URL):如果链接的地址与此正则表达式匹配,则将应用该规则。 ;图像地址(img):如果该值存在,则该规则将仅适用于链接在其文本节点中具有的图像与此正则表达式匹配的情况。 ;文本内容(xml):如果此值...
* 正则表达式匹配关键数据 * @param line * @return */ private Set<String> parse(String line) { Set resSet = new LinkedHashSet(); Pattern pattern = Pattern.compile(reg); Matcher matcher = pattern...
软件简介 这是urlrewritefilter-...rule结点中from的规则默认使用的是正则表达式来匹配的,当用户访问服务器时的URL会与该配置相比较,如果符合规则就会按照下面to结点中的配置对其进行跳转,其默认是forward跳转。
常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...
常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...
常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...
常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...
使用正则表达式创建国际化邮政编码Validator 15.4节. 如何创建一个Validator去验证通用商品代码(UPC) 15.5节. 如何去验证多个Combo Box及Radio Button组件 15.6节. 如何在一个表单内通过ToolTips来返映一个错误 ...
常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...