Nemo

关注TA

路漫漫其修远兮，吾将上下而求索。

普罗旺斯
负责帅就完事了
写了1,495,102字

余歆

在文章《LG V50 ROM 青叶v1.1 (安卓11，30A) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
111111111111111111111111111111111111
```
sugarpuff

在文章《LG V35 安卓10.0解锁Volte（联通、电信、移动）教程》中回复：
```
这台手机是无论如何都弄不了双卡双待吗，如果是的话为啥他要给双卡槽
```
清海

在文章《LG V50 ROM 青叶v1.1 (安卓11，30A) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
谢谢分享谢谢分享
```
qazwsxedc

在文章《LG V50 ROM 青叶v1.1 (安卓11，30A) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
66666666
```
qazwsxedc

在文章《LG V50 ROM 青叶v1.1 (安卓11，30A) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
66666666
```
5655

在文章《LG V50 ROM 青叶v1.1 (安卓11，30A) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
大佬666
```
88888

在文章《LG V50 ROM 青叶v1.1 (安卓11，30A) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
6666
```
1959582044

在文章《LGV50 ROM 云裳v1.1 (安卓10，21a) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
okok
```
但是洛夫洛克

在文章《LG V50 ROM 青叶v1.1 (安卓11，30A) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
666
```
要过年了

在文章《LGV50 ROM 云裳v1.1 (安卓10，21a) 卡刷包 VoLTE/root/面具/本地化/精简/优化》中回复：
```
谢谢了
```

该文章投稿至Nemo社区 Java 板块复制链接

java过滤HTML中的标签获取纯文本

发布于 2017/09/27 18:29 3,318浏览 0回复 1,241字

public static String html2Text(String htmlStr){
    Pattern scrpitPat;
    Matcher scriptMat;
    Pattern stylePat;
    Matcher styleMat;
    Pattern htmlPat;
    Matcher htmlMat;
    try{
        //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> }
        String scriptEx = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
        //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> }
        String styleEx = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";
        //定义HTML标签的正则表达式
        String htmlEx = "<[^>]+>";
        scrpitPat = Pattern.compile(scriptEx,Pattern.CASE_INSENSITIVE);
        scriptMat = scrpitPat.matcher(htmlStr);
        htmlStr = scriptMat.replaceAll("");             //过滤script标签
        stylePat = Pattern.compile(styleEx,Pattern.CASE_INSENSITIVE);
        styleMat = stylePat.matcher(htmlStr);
        htmlStr = styleMat.replaceAll("");              //过滤style标签
        htmlPat = Pattern.compile(htmlEx,Pattern.CASE_INSENSITIVE);
        htmlMat = htmlPat.matcher(htmlStr);
        htmlStr = htmlMat.replaceAll("");               //过滤html标签
    }catch(Exception e){
        e.printStackTrace();
    }
    return htmlStr;//返回文本字符串
}

本文标签
java 标签 html 过滤标签

上一个文章：仿Mongodb 主键，ObjectId 生成短随机字符

下一个文章：java freemarker生成静态网页简单例子

点了个评

Nemo

最近回复

java过滤HTML中的标签获取纯文本

点击排行

没有找到这位爷的热门文章哦~

最新文章

使用DrissionPage无头模式采集网页信息

Python Selenium获取浏览器中的网咯请求响应

解决pip安装库时提示UnicodeDecodeError: 'gbk' codec can't decode byte 0xaa in position 72: illegal multibyte sequence

陶渊明诗集（收藏版）

Python print如何一行覆盖输出？

论性能过剩

单元测试编码规范

浅谈代码覆盖率

Java & Python 里的泛型

python Selenium 操作工具封装：反反爬虫+内存管理