Java基础知识：Jtidy解析脚本时候出现问题

打印 | 收藏

问题描述：

最近在做网页结构化信息抽取，用到了JTidy和xslt.当在处理一些包含很多脚本的页面时候，出现了，JTidy去脏失败，提示标题中的异常。

最后发现，问题出现在解析脚本的时候因为一些脚本里面不规范的内容，导致不能判断结束造成了上面的异常出现。

解决方法：

最初的时候想通过修改JTidy的源码来解决这个问题，但是后来做着发现可行性不高，一个是修改这个源码可能会带来其它的问题。另外一个，还要花长时间去看源码。

所以，最终还是选择了采用预处理的方式来进行处理删除掉脚本。

代码

[java]

public static String getFilterBody（String strBody） {

// htmlparser 解析

Parser parser = Parser.createParser（strBody, "utf-8"）；

NodeList list;

String reValue = strBody;

try {

list = parser.parse（null）；

visitNodeList（list）；

reValue = list.toHtml（）；

} catch （ParserException e1） {

}

return reValue;

}

// 递归过滤

private static void visitNodeList（NodeList list） {

for （int i = 0; i < list.size（）； i++） {

Node node = list.elementAt（i）；

if （node instanceof Tag） {

if （node instanceof ScriptTag） {

list.remove（i）；

continue;

}// 这里可以增加删除的Tag

if （node instanceof StyleTag） {

list.remove（i）；

continue;

}// 这里可以增加删除的Tag

}

NodeList children = node.getChildren（）；

if （children != null && children.size（） > 0）

visitNodeList（children）；

}

但是在删除脚本的时候一样遇到了相同的问题，就是在解析脚本的时候出现了错乱，把一些脚本中的标签识别为正常标签。如：<script>里面的 '<span></span>'里面的'</'就会被识别为脚本的结束，导致脚本获取不全，删除不全最后在网上找到了解决的办法通过下面两个参数的设置来解析了html对脚本的处理问题

[java]

org.htmlparser.scanners.ScriptScanner.STRICT = false;

org.htmlparser.lexer.Lexer.STRICT_REMARKS = false;

只要配置其中之一就可以了，下面是这两个参数的一个官方说明

org.htmlparser.scanners.ScriptScanner.STRICT = false;

[java]

/**

* Strict parsing of CDATA flag.

* If this flag is set true, the parsing of script is performed without

* regard to quotes. This means that erroneous script such as:

* <pre>

* document.write（"</script>"）；

* </pre>

* will be parsed in strict accordance with appendix

* <a href="/TR/html4/appendix/notes.html#notes-specifying-data" mce_href="/TR/html4/appendix/notes.html#notes-specifying-data">

* B.3.2 Specifying non-HTML data</a> of the

* <a href="/TR/html4/" mce_href="/TR/html4/">HTML 4.01 Specification</a> and

* hence will be split into two or more nodes. Correct javascript would

* escape the ETAGO:

* <pre>

* document.write（"<//script>"）；

* </pre>

* If true, CDATA parsing will stop at the first ETAGO （"</"） no matter

* whether it is quoted or not. If false, balanced quotes （either single or

* double） will shield an ETAGO. Beacuse of the possibility of quotes within

* single or multiline comments, these are also parsed. In most cases,

* users prefer non-strict handling since there is so much broken script

* out in the wild.

org.htmlparser.lexer.Lexer.STRICT_REMARKS = false;

[java]

/**

* Process remarks strictly flag.

* If <code>true</code>, remarks are not terminated by ---$gt;

* or --!$gt;, i.e. more than two dashes. If <code>false</code>,

* a more lax （and closer to typical browser handling） remark parsing

* is used.

* Default <code>true</code>.

在默认情况下，htmlparser解析是按严格的html标准解析，所以当碰到不标准的标签有可能出错，

当把以上这两个参数改变以后，htmlparser解析不再严格，能应对所有可能出现的情况。

闂備線娼уΛ宀勫磻閿燂拷

闂備線娼уΛ娆撳礉閺囥垹鍌ㄩ柕鍫濇处鐎氬鏌ㄥ┑鍡樺珔缂佹唻缍侀弻锟犲礋椤愶富鈧鏌熼摎鍌氬祮闁诡啫鍥ч唶闁绘柨鎽滅粔顒勬煟閻樺弶鎼愰柣掳鍔屽嵄闁硅揪绠戣繚闂佽法鍣﹂幏锟�
闂備礁鎼悧婊堝礈濞戙垺鍋熸い鏍仦閻掗箖鏌曟繛鍨姎闁诲氦顕ц彁闁搞儻绲芥晶鎻捗归悡搴㈠殗鐎殿喖鐖兼俊鐑芥晜閸撗冪厓濠电偛鐡ㄧ划宀€鑺遍懖鈺勫С濞寸厧鐡ㄩ崵鍌炴煛閸愩劌鈧崵绮旇ぐ鎺撶叆婵炴垼娅曠€氾拷闂佽娴烽弫鎼併€佹繝鍋綊宕卞Ο璇差潯闂佷紮绲介張顒勬偩閸楃們搴ㄥ炊閿濆懎鈷夋繛瀵稿帶閹虫﹢鐛€ｎ喖绠ｆ繝濠傚閹枫劑姊洪崨濠冣拹缂佸甯￠幆鍥ㄥ閺夋垵鍞ㄩ梺鎼炲劘閸斿秹锝為弽顬ュ酣宕堕敐鍛拤婵炲鍘ч幊姗€骞嗛崘顔肩妞ゆ劑鍨洪惁鏃€绻濋姀锝嗙【閻庢艾鎽滃Σ鎰版晸閿燂拷闂備胶鎳撻悺銊╁垂閸愭祴鍫柟瀵稿С閻掑﹤鈹戦悩鍙夋悙婵炲懌鍨归湁闁挎繂妫涢惌搴ㄦ煃瑜滈崜娆撳箠閹邦兘鏋旈柟杈鹃檮閸嬪鏌涢銈呮瀾缂傚秮鍋撻梻浣瑰灊閻掞箓濡甸悙鐢电闁哄啫鐗嗙痪褔鏌涢幇顖涚《缂佲偓閿燂拷闂佽绨肩徊濠氾綖婢舵劕鍨傛繝濠傚椤╅攱銇勯幒鎴濇殲缂佷緡鍣ｅ鍫曟倷閸偅鐝┑鐐茬墛閸ㄥ墎绮氶柆宥呯労闁告剬鍛槬濠电姷顣介埀顒€鍟块埀顒傛嚀閿曘垺鎷呴崜鎻掓闂佺ǹ鏈换宥夊船閹绢喗鐓欓悗娑欋缚婢ь剚绻濋埀顒佹媴閸︻厾鎳濋梺鍓茬厛閸嬪懐绱為埀顒勬⒑閻熸壆鎽犻柣妤冨仧閹广垹顫濋鑺ョ亙闂佸搫娲﹂惌顔炬崲閸℃稒鐓欐い鎾楀啰浠村銈嗘处閸撶喎鐣烽敐鍡欑瘈闁告劏鏅╁Σ顖炴⒑閼逛即鍝烘慨濠傤煼閺屽牓骞橀鑲╊吅闂佺懓鐡ㄧ划宥囧垝閿曞倹鐓ユ繛鎴炆戝﹢鐗堢節閳ь剟骞嶉鎯у触濠电偛妫楀ù椋庣玻濡ゅ啰纾奸柡鍌涱儥閸庡繒鈧鎸稿Λ婵嗙暦濮樿埖鍋愮紓浣贯缚瑜版垿姊洪幐搴″枙闁瑰嚖鎷�闂佽娴烽弫鎼佸箠閹捐埖鏆滄い鎰剁畱缁€鍡樼箾閹寸伝顏堝极閸洘鍊电痪顓炴媼濞兼劙鏌涢妸锔剧煁缂佸倹甯￠、妤佹媴缁嬪晝顐︽⒑鐟欏嫭绶茬紒缁樺灴瀵偊顢欓悾宀婃祫濠殿喗銇涢崑鎾绘煃瑜滈崜娆撳磹閸濄儳绀婇悗锝庡枟閸庡秹鏌涢弴銊ュ笌鐟滅増甯楅悡鈧銈嗗笒閿曪妇绮堥敓锟�闂備浇澹堟ご绋款潖婵犳碍鐒鹃柟缁㈠枛濡﹢鏌ｉ悢绋款棆缁绢厸鍋撻梻浣瑰缁嬫帒鐣濋幖浣哥；闁哄秲鍔庨々鐑芥煥閻曞倹瀚�:webmaster@jscj.com闂備線娼уΛ宀勫磻閹剧粯鐓熸い顐幘缁佺兘鏌ｉ敂璺ㄧ煓闁轰礁绉归弫鎾绘晸閿燂拷4008816886

上一条：Java基础知识：静态变量错误修复
下一条：Java基础知识：新的Java漏洞已成为大规模攻击的目标

无相关信息


学员/会员登录学员/会员登录

Java基础知识：Jtidy解析脚本时候出现问题

相关文章