" reg.IgnoreCase = True reg.G" />

正则表达式轻松消除HTML代码


一、清楚内容中的Javsscript 代码

Function ClearJSCode(originCode)
Dim reg
set reg = New RegExp
reg.Pattern = "<SCRIPT[^<]*</SCRIPT>"
reg.IgnoreCase = True
reg.Global = True
clearJSCode = reg.Replace(originCode, "")
End Function

二、清除内容中的HTML代码

Function ClearHTMLCode(originCode)
Dim reg
set reg = new RegExp
reg.Pattern = "<[^>]*>"
reg.IgnoreCase = True
reg.Global = True
ClearHTMLCode = reg.Replace(originCode, "")
End Function

现在好多网站的内容都是使用采集程序生成的,使用上边的代码就可以轻松的将内容中的HTML和JS代码清除掉。

常用正则表达式 整理篇
匹配中文字符的正则表达式:[u4e00-u9fa5]匹配双字节字符(包括汉字在内):[^x00-xff]应用:计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)St

c# 正则表达式对网页进行有效内容抽取
搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容。简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部

常用正则表达式 比较实用
匹配中文字符的正则表达式:[u4e00-u9fa5]评注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^x00-xff]评注