我们在开发爬虫的日技过程中,经常发现有一些网站,爬虫会直接把数据放到HTML中的何解<script>标签里面。这些数据长得有点像JSON,日技但又有差异,爬虫如下图所示:
图片
这种格式,何解我们叫做JavaScript Object。日技长得很像Python的爬虫字典,又很像是何解JSON。但是这个格式在Python里面,无论直接当字典解析,还是当JSON解析,都会报错,如下图所示:
图片
遇到这种情况,有同学准备使用正则表达式来解析,又有同学直接放弃。
但实际上,这种数据结构,使用Yaml是可以直接解析成Python的字典。我们首先来安装一下Yaml:
pip install pyyaml
然后直接像解析JSON一样解析:
import yamldata = '''{ name: '青南', salary: 999999999, address: '上海', pro: true}'''info = yaml.safe_load(data)
运行效果如下图所示,已经直接解析成了Python的字典:
图片
Yaml格式是JSON格式的超集,因此,使用pyyaml库也能直接解析正常的JSON:
图片
甚至各种复杂的混合格式也能正常解析:
图片
(责任编辑:探索)
财政部:前10月国有企业利润总额同比增长17.3% 经济运行态势较好
兴胜创建(00896.HK)因行使购股权配发1090.9万股 每股发行价1.16港元
10月份社会消费品零售总额增长8.6% 限额以上单位消费品零售额增长3.7%
兴胜创建(00896.HK)因行使购股权配发1090.9万股 每股发行价1.16港元
北京市住建委:公租房转租将“零容忍”打击 专项组抽查4个公租房项目