java正则匹配HTML中a标签里的中文字符示例

2017-3-7 12:50| 发布者: zhangjf| 查看: 1138| 评论: 0

摘要: 本文实例讲述了java正则匹配HTML中a标签里的中文字符。分享给大家供大家参考，具体如下：今天群里一位朋友问到了一个正则表达式的问题，有如下内容： a href='www.baidu.comds=id32434#comment'rewr特432/a453543a ...

本文实例讲述了java正则匹配HTML中a标签里的中文字符。分享给大家供大家参考，具体如下：

今天群里一位朋友问到了一个正则表达式的问题，有如下内容：

复制代码

现在要匹配出内容包含中文但标签的属性中不包含comment的标签中的汉字。

解决思路如下：

2、在匹配结果中进行二次匹配出中文；

代码如下：

package com.mmq.regex;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* @use 匹配HTML的<a>标签中的中文字符
* @ProjectName stuff
* @Author mumaoqiang
* @FullName com.mmq.regex.MatchChineseCharacters.java
* @JDK 1.6.0
* @Version 1.0
*/
public class MatchChineseCharacters {
/**
* 根据输入的内容，匹配出包含中文但不包含comment的<a>标签中的中文字符
* @param source 要匹配的内容
* @return <a>标签中的中文字符
*/
public static String matchChineseCharacters(String source) {
//匹配出包含中文但不包含comment的<a>标签
String reg = "<a((?!comment).)*?>([^<>]*?[\u4e00-\u9fa5]+[^<>]*?)+(?=</a>)";
Pattern pattern = Pattern.compile(reg);
Matcher matcher = pattern.matcher(source);
StringBuilder character = new StringBuilder();
while(matcher.find()){
String result = matcher.group();
System.out.println(result);
//对结果进行二次正则，匹配出中文字符
String reg1 = "[\u4e00-\u9fa5]+";
Pattern p1 = Pattern.compile(reg1);
Matcher m1 = p1.matcher(result);
while(m1.find()){
character.append(m1.group());
}
//System.out.println(character.toString());
}
return character.toString();
}
public static void main(String[] args) {
String result = matchChineseCharacters("<a href='http://bbs.it-home.org/www.baidu.comds=id32434#comment'rewr>特432</a>453543<a guhll,,l>a1特123你好123吗？</a><a href=id=32434#comment'ewrer>特2</a><a>标签中的文字</a>");
System.out.println(result);
}
}