在出好HCTF2016的两道xss题目后,就有了一个比较严重的问题就是,如何守护xss的后台,用不能人工一直在后台刷新吧(逃
一般来说,之所以python的普通爬虫不能爬取大多数的网站的原因,是因为大多数网站都把显示数据的方式改成了js执行,通过各种各样的方式,然后输出到页面中,浏览器一般帮助你完成这部分js的解析,所以我们使用的时候,就感受不到阻碍了。
但是对于普通的爬虫来说,这就是比较致命的了,那么对于python的爬虫来说,我们一般使用比较轻量级的selenium+phantomjs 来解决,但是如果你的xss题目对浏览器内核有需求呢?
就好像我这里的题目guestbook浏览器要求必须是chrome一样,所以我这里选择了selenium+webdriver 来解决。
首先第一个问题就是你的电脑里必须要有对应的浏览器,如果想只用chrome的webdriver就必须安装过chrome,如果想用firefox的同理。
幸运的是,有份官方文档给我们看
http://www.seleniumhq.org/docs/03_webdriver.jsp
有个比较重要的就是firefox的webdriver是自带的,但是chrome并不是,所以我们需要自己来下载一个
https://sites.google.com/a/chromium.org/chromedriver/downloads
ps: webdriver的版本和本机chrome相符合的,而且语法也有所变化,这里推荐最新版chrome+最新版webdriver
pps: 虽然我没找到哪里有明确的描述,但是事实上,启动webdriver的时候,webdriver会像浏览器一样弹出来,在我的测试下,在没桌面的情况下怎么都运行不起来,可能是需求桌面的,所以想要放在线上服务器的话,可能需要有桌面才可以(我想没人会在线上服务器装个桌面吧,这里估计还是windows服务器)
一个普通的守护脚本 ok,到了最头疼的问题了,如何处理选手插入的js,如果你尝试了用上面的办法写一个守护脚本,你会发现,选手发一个alert(1)
,你的代码就会卡住,然后bot就挂了,这里我使用了通过不停的点击确定,直至捕获错误为止
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 #!/usr/bin/env python # -*- coding:utf-8 -*- import seleniumfrom selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.common.exceptions import WebDriverException import os import time while 1 : chromedriver = "C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chromedriver.exe" os.environ["webdriver.chrome.driver" ] = chromedriver browser = webdriver.Chrome(chromedriver) url = "http://guestbook.hctf.io/admin_lorexxar.php" browser.get(url) browser.add_cookie({'name' : 'admin' , 'value' : 'hctf2o16com30nag0gog0' , 'path' : '/' }) browser.get(url) while 1 : try: browser.switch_to_alert().accept() except selenium.common.exceptions.NoAlertPresentException: break print browser.title print time .strftime("%Y-%m-%d %X" , time .localtime()) time .sleep(2 ) browser.quit() time .sleep(10 )
这里的
1 2 browser .switch_to_alert ().accept ()
可以处理一切的弹窗问题,保证webdriver起码不会被弹窗卡住
1 2 3 4 print browser.title print time .strftime("%Y-% m-%d %X", time .localtime())time .sleep(2 )
这里输出browser.title的原因是,这里如果不调用browser输出页面内容的话,如果因为网络原因,页面还没有加载出来,这里会经过下面的time.sleep
直接退出。
等待页面加载完成后,我们需要给时间来加载选手的js,所以这里的time.sleep
是必须的。
在我的测试下,这里只要没有弹窗,即使js没有加载完成,也会被quit关闭webdriver。
由于留给加载js的时间是有限的,所以在这里,需要另一个脚本来清空数据库中发送的留言,这里我把这部分单独出去了,不过完全可以集合在脚本里,就不多提了。
需要登陆或者需要交互式的xss守护脚本 上面说了,类似于留言板的守护方式,那么如果是交互式的,而且通过session来判断用户的,该怎么办呢?
这里我使用request来登陆获取cookie,然后传给browser中
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 #!/usr/bin/env python # -*- coding:utf-8 -*- import seleniumfrom selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.common.exceptions import WebDriverException import os import time import requestswhile 1 : s = requests.Session() url = 'http://sguestbook.hctf.io/login.php' data = { 'user' : 'admin' , 'pass' : 'jklfdnkrejknklhjklfjql' } r = s.post(url, data , allow_redirects = False) session = r.headers['Set-Cookie' ][10 :-8 ] chromedriver = "C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chromedriver.exe" os.environ["webdriver.chrome.driver" ] = chromedriver browser = webdriver.Chrome(chromedriver) url = "http://sguestbook.hctf.io/user.php" browser.get(url) browser.switch_to_alert().accept() browser.add_cookie({'name' : 'PHPSESSID' , 'value' : session, 'path' : '/' }) browser.get(url) while 1 : try: browser.switch_to_alert().accept() except selenium.common.exceptions.NoAlertPresentException: break print browser.title print time .strftime("%Y-%m-%d %X" , time .localtime()) time .sleep(2 ) browser.quit() time .sleep(10 )
这样就比较合适的解决了问题。
ps:改脚本的时候其实有一点儿问题,这里的phpsession其实可以复用,因为默认有效时间大概是3小时,可以把判断改为判断session失效后调用登陆获取新的session。
在2天48小时的时间内,我的bot只挂了大概5次左右,其中两次是不小心被我们的运维ban了,有两次是在发起请求的时候超时导致卡死退出,还有一次目测是有个选手发了大概20条刷新,导致webdirver直接卡死退出了。
虽然不能说是完善的xss题目守护解决方案,不过也算是解决了大部分的情况,希望有人能提出更好的办法吧