Python爬取网站资料.docx

上传人:夺命阿水 文档编号:1418001 上传时间:2024-06-15 格式:DOCX 页数:5 大小:30.78KB
返回 下载 相关 举报
Python爬取网站资料.docx_第1页
第1页 / 共5页
Python爬取网站资料.docx_第2页
第2页 / 共5页
Python爬取网站资料.docx_第3页
第3页 / 共5页
Python爬取网站资料.docx_第4页
第4页 / 共5页
Python爬取网站资料.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《Python爬取网站资料.docx》由会员分享,可在线阅读,更多相关《Python爬取网站资料.docx(5页珍藏版)》请在课桌文档上搜索。

1、行业动态1绿资产评估协会维权委员会专家提示201帽:1凉注册会计师协会专家委员会专家提示第6号W凉注册会计师协会专家委员会专家提示第9号集注册会计师协会专家委员会专家提示201.加注册会计师协会专家委员会专家提示201.北京注册会计师协会专家委员会专家提示第7号归北京注册会计师协会专家委员会专家提示201.幢北京注册会计师协会专家委员会专家提示201.悄北京注册会计师协会专业技术委员会专家提示北京注册会计师协会专家委员会专家提示第8号北京注册会计师协会专家委员会专家提示201.北京注册会计师协会专家委员会专家提示201.01原注册会计师协会专家委员会专家提示201区凉注册会计师协会专家委员会专

2、家提示2。j加注册会计师协会专家委员会专家提示201.原注册会计师协会专家委员会专家提示201.北京注册会计师协会专业技术委员会专家提示显I北京注册会计师协会专烹蕃吊会专瘵提示幡W集注册会计师协会关于发布专家委员会专家.但1绿注册会计师协会专家委员会专家提示201幡1绿资产评估协会中小评盾机构技术援助专家隹1凉注册会计师协会专家委员会专家提示(20.1集注册会计师协会专家委员会专家提示201.梢1集注册会计师协会专家委员会专家提示(20.SW凉资产评估协会中小评估机构技术援助专家西11绿注册会计师协会专家委员会专家提示201.僮1凉注册会计师协会专家委员会专家提示201槟1苏注册会计师协会专家

3、委员会专家提示第4号西1凉注册会计师协会专家委员会专家提示201.1集注册会计师协会专家委员会专家提示第2号与1绿注册会计师协会专家委员会专家提示201.1绿注册会计师协会专业技术委员会专家提示隹14注册会计师协会专家委员会专家提示201.隹1凉注册会计师协会专家委员会专家提示第3号1凉注册会计师协会专家委员会专家提示201.油北京注册会计师饰会专友夺吊会专瘵摞示1201Python爬取网站资料爬取数据来源:http:/www.bicpa.org.en/dtzj/zxgg/B15435553852066.html第箱登录IOA登录北京资产评估协会BijingAppraiMlSocwty,北京注

4、册会计师协会G、工BijicgInstituteofCnifidPublicAccountants服务监督管理协调首页协会介S深改委会员服务考试培训执业监管媒体关注30周年专栏T晾地E会WW务所202碑出J1.t市公司202弄度审计2024-03-117晾中企华资产iH5fllWHI公司.,蹿天他兴业资产怦估2024-03-04T绰资产评估协会与资产处监IKtS开2024年第T度费2024-02-29T6注册会i懵物会人才工作委员会召开202侔第一次全2024-02-27T晾地区会Hg务所202好出|上市公司202弄度审计2024-02-21文件开始插入设计布局引用由附亩间视图帮助特色功能Q告

5、诉我共享I北京注册会计师协会专业技术委员会专家提示2020第2号一采川远程审计方式的特别考虑2020-02-1216:53:53http:/WaVdtzjzxggB15814976145963.htnl为有效应对新型冠状病毒肺炎疫情带来的不利影响,做好2019年年报审计工作,克服部分现场审计程序无法按准则规定和慎定审计计划实施等困难,部分会计师事务所结合工作实际,力争既有效防控凌情,又枳极配合客户和监管部门的要求执行2019年年报由计工作,紧急制定了远程亩计工作相关措施。鉴于目前在亩计准则及指南中均没有就远程亩计工作方式提供相关规定和行业执业意见,并且绝大部分会计师事务所穗乏大规模实施远程亩计

6、工作的经短,因此,在实施远程由计工作的过程中,可能存在因管控措施不当导致亩计风险提升的情形。本提示仅供事务所及相关从业人员在执业时参考,不能普代相关法律法规、注册会计师执业准则以及注册会计师职业判断。提示中所涉及亩计程序的时间、范围和程度等,事务所及相关从业人员在执业中需结合项目实际情况、风睑导向原则以及注册会计师的职业判断确定,不能直接照搬照抄。为积极推进2019年年报宙计工作,防范远程亩计工作相关风险,北京注协财务报表亩计和非鉴证业务服务专业技术委员会针对疫情防控期间远程亩计工作提出如下执业建议:一、对远程宙计工作方式的定义和条件的理解远程审计,是指注册会计师受特殊情况和不可抗力(例如突发

7、公共卫生等全国性或区域性壬*八t市仕、鼠gT注坤照叩辛舌讣4+川林源击;4的tt三E;+IA格5比兰幽寻格丽第1页,共7页6634个字CB英语(美国)雷昌同代码说明:Print(开始爬取文章.”)importrequestsimportosimportjsonheader=User-Agent:Mozilla5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/68.0.3440.75Safari537.36,fonn_data=,-q,:,Article.list,siteld,:,7e0b3b27-2622-4a

8、a7-b6f8-abfe5c5df922,catalogld,:,34f92da3-d6d0-4e96-899f-d7f58lc18162;,pub,:,true,limit:5000,start:1#这是异步加载,请求方法是POSTurl=http:WWWarticle-data=res.text.split(nsuccess:true,datas:H)l#去掉字符串前面的无用信息success:true,datas:“article_data=article-data.split(11,total:)0#去掉字符串后面的无用信息,totak4946,obj=json.loads(artic

9、le-data)#获取标题含有“委员会专家提示”的文章的标题,发布时间和链接path=rhttpz11articles=forinfoinobj:if委员会专家提示ininfo,title,:article=“标题”:infol,title,.strip(),#StriP()去除首尾空格”发布时间:info,publishDate,”链接”:path+infour+infol,primaryKey,+,.htmlu)articles.append(cirticle)#获取想要的文章并批量写入word文件importrequestsfrombs4importBeautifulSoupimport

10、docxfromdocx.sharedimportPt#用于设定字体大小(磅值)fromdocx.oxml.nsimportqn#用于应用中文字体importrandomimporttimedefGet_article_to_word(url,date):user_agent_list=,Mozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/68.0.3440.106Safari537.36u,nMozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHT

11、M1.,likeGecko)Chrome/67.0.3396.99Safari537.36n,nMozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/64.0.3282.186Safari537.36u,nMozilla5.0(XI1;1.inuxx86_64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/62.0.3202.62Safari537.3611,nMozilla5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KH

12、TM1.,likeGecko)Chrome/45.0.2454.101Safari537.36n,nMozilla4.0(compatible;MSIE7.0;WindowsNT6.0)”,nMozilla5.0(Macintosh;U;PPCMacOSX10.5;en-US;rv:1.9.2.15)Gecko/20110303Firefox/3.6.15header=User-Agent:user_agent_list)headerUser-Agent=random.choice(user_agent_list)#每篇文章随机选择浏览器,避免单个浏览器请求太快被服务器切曲连接wb_data=

13、requests.get(url,headers=header)soup=BeautifulSoupCwb_data.content)title=SoUP.select(.headword)0.text.strip。#获得标题contentl=soup.select(11.MsoNormaln)#针对正文布局为class=uMsoNormalncontent2=soup.select(#art_content)#针对正文布局为id=nart_contentndoc=docx.Document()#新建空白Word文档# 设定全局字体doc.stylesNorma门.font.name=u宋体d

14、oc.styles,Norma.-element.rPr.rFonts.set(qn(weastAsia,),Ir宋体)# 写入标题行,并设置字体格式p=doc.add-paragraph()r=p.add_run(title)r.bold=Truer.font.size=Pt(18)doc.add_paragraph(date)#写入日期doc.add_paragraph(url)#写入文章链接dirs=os.getcwd()+”文章ifnotos.path.exists(dirs):os.makedirs(dirs)# 写入正文foriincontent2:doc.add_paragrap

15、h(i.text)foriincontent1:doc.add_paragraph(i.text)doc.save(f,dirstitle.docx)#遍历所有文章的链接,调用以上函数执行forartinarticles:GejartiCIJto_word(art链接,art”发布时间”)print(11下载完成。.format(art标题1)ifarticles.index(art)%30=29:#每获取30篇文章,暂停5秒,避免频繁请求被服务器切断连接time.sleep(5)Print(f,共下载len(articles)篇文章。”)Print(程序运行完成,关闭窗口退出.”)input

16、()代码解释说明:这段代码是一个Python脚本,用于爬取指定网站上的文章并保存为Word文档。它包括以下主要步骤:1 .使用requests库向指定的UR1.发送POST请求,获取文章数据。2 .对获取到的JSc)N格式数据进行处理,提取标题含有“委员会专家提示”的文章的标题、发布时间和链接。3 .使用BeaUtifUISouP库解析每篇文章的内容,并将内容写入WOrd文档。4 .程序通过循环遍历文章列表,依次爬取每篇文章并保存为WOrd文档。5 .在下载完30篇文章后,程序暂停5秒,以避免频繁请求被服务器切断连接。这段代码首先发送POST请求获取文章数据,然后解析JSON格式数据提取指定标

17、题的文章信息。接着使用BeaUtifUlSOUP解析每篇文章的内容,并将内容写入WOrd文档。程序通过循环遍历文章列表,逐篇爬取文章并保存为WOrd文件,同时在下载完30篇文章后暂停5秒以防止频繁请求被服务器中断连接。在实际运行过程中,可能会遇到网站反爬虫机制导致请求被拦截的问题。为了解决这个问题,我采取以下方法:1 .添加随机USer-Agent:在请求头中使用随机生成的USer-Agent,模拟不同浏览器的请求,降低被识别为爬虫的概率。2 .设置请求频率:控制请求的频率,避免短时间内发送过多请求,可以通过设置请求间隔时间来规避被服务器屏蔽的风险。3 .使用代理IP:切换代理IP地址,以改变请求的来源IP,降低被封锁的可能性。4 .处理验证码:如果网站出现验证码验证,可考虑使用第三方工具或手动处理验证码,确保程序能够正常继续执行。5 .分布式爬虫:考虑使用分布式爬虫架构,将请求分散到多个节点上,降低单一IP被封禁的风险。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号