基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计.docx

上传人:夺命阿水 文档编号:301213 上传时间:2023-04-17 格式:DOCX 页数:10 大小:38.09KB
返回 下载 相关 举报
基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计.docx_第1页
第1页 / 共10页
基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计.docx_第2页
第2页 / 共10页
基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计.docx_第3页
第3页 / 共10页
基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计.docx_第4页
第4页 / 共10页
基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计.docx_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计.docx》由会员分享,可在线阅读,更多相关《基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计.docx(10页珍藏版)》请在课桌文档上搜索。

1、基于主题爬虫的三农舆情监测管理平台开发与应用及可应用于农药喷洒及农田灌溉的多用途气悬浮车设计提要:农药喷洒和农田灌溉是现代农业生产中最重要的管理措施,是确保作物正常生长发育和高产的重要因素。然而,病虫草害的有效防控及灌溉水的高效利用仍然是困扰中国农业生产的迫切难题。在中国,当前落后的农药施用及灌溉技术需要大量的农药及灌溉水被应用于农业生产中,造成资源有效利用率低,限制农作物产量和品质进一步提升,从而影响农作物生产及农业产业发展。目前,机械化农药施用及灌溉系统为农业生产和可持续发展带来了一定影响,尤其是航空喷药及灌溉技术,有利于提高农业资源利用率,实现大面积化农药施用及灌溉的精准操作。遥控式小型

2、无人机已在此领域得到初步应用,通过手动智能操控遥控器及GPS定位,使其旋翼产生的向下气流辅助增加气流对作物的穿透性来实现,具有操作灵活、自动控制能力强及避免飘移等特点。然而现有无人机动力单一,应用范围有限,造价成本偏高。相对而言,悬浮飞行设备动力充足,功率较大,飞行速度较快,对载重量大且远距离的商业及工业运行带来很大便捷,但现有悬浮飞行设备均采用化学燃料作为动力源,造成污染环境,且现有悬浮飞行设备结构复杂,操控难度大,用途有限,还未见关于悬浮飞行设备在农业生产中得以应用的报道。为弥补现有航空技术存在的不足,我们发明了一种可应用于农药喷洒及农田灌溉的多用途气悬浮车。该新型气悬浮车采用蓄电池作为动

3、力源,车体的底部设置有四个车轮,车体的顶部设置有螺旋桨,尾部电机驱动设置于车体尾部的尾部叶轮转动,车体的左右分别设置有第一电机和第二电机,变阻器用于调节各个电机的转速,车体内的前侧设置有控制方向杆和控制速度踏板,控制方向杆上设置有用于控制顶部电机和尾部电机转速的开关,控制方向杆的底部与车轮中的前轮连接,控制方向杆和尾部电机之间通过链条连接,通过转动控制方向杆带动尾部电机转动,使尾部叶轮的轴向发生变化,控制速度踏板与第一电机和第二电机的变阻器连接,控制速度踏板调整变阻器的滑动位置。此多用途气悬浮车采用将电能转化为机械能的原理,通过多部电动机提供动力源,弥补了现有无人机和悬浮飞行设备动力单一,结构

4、复杂,不易操控,用途有限,成本较高及污染环境等不足。其原理独特,设计巧妙,结构简单,成本较低,便于操控,用途多样,便捷、安全且环保,在现代农业生产中具有广阔的推广应用前景。关键词:现代农业生产;农药喷洒;农田灌溉;气悬浮车1引言农药喷洒和农田灌溉是现代农业生产中最重要的管理措施,是确保作物正常生长发育和高产的重要因素。然而,病虫草害的有效防控及灌溉水的高效利用仍然是困扰中国农业生产的迫切难题1-4。目前农业生产过程中,除草剂和灌溉水的大量施用及其技术的落后造成了土壤及农田环境的严重污染、资源有效利用率低、农作物产量和品质下降等问题,严重影响农作物生产及农业产业发展5-7。因此,农药喷洒和农田灌

5、溉的精准实施及其技术的创新研发,可最大限度发挥农药及灌溉水的利用率,避免土壤及农田环境破坏,提高农作物产量和品质,实现高效生态农业的可持续发展8。目前,机械化农药施用及灌溉系统为农业生产和可持续发展带来了一定影响,尤其是航空喷药及灌溉技术,有利于提高农业资源利用率,实现大面积化农药施用及灌溉的精准操作遥控式小型无人机己在此领域得到初步应用,通过手动智能操控遥控器及GPS定位,使其旋翼产生的向下气流辅助增加气流对作物的穿透性来实现,具有操作灵活、自动控制能力强及壁免飘移等特点Ul-13。然而现有无人机动力单一,应用范围有限,造价成本偏局。相对而言,悬浮飞行设备动力充足,功率较大,飞行速度较快,对

6、载重量大且远距离的商业及工业运行带来很大便捷,但现有悬浮飞行设备均采用化学燃料作为动力源,造成污染环境,且现有悬浮飞行设备结构复杂,操控难度大,用途有限,还未见关于悬浮飞行设备在农业生产中得以应用的报道。为弥补现有航空技术存在的不足,我们发明了一种可应用于农药喷洒及农田灌溉的多用途气悬浮车(已申请中国发明专利,申请号:)。该新型气悬浮车基于将电能转化为机械能的原理,采用蓄电池作为动力源,并通过多部电动机提供动力源,弥补了现有无人机和悬浮飞行设备动力单一,结构复杂,不易操控,用途有限,成本较高及污染环境等不足。该气悬浮车原理独特,设计巧妙,结构简单,成本较低,便于操控,用途多样便捷、安全且环保,

7、在现代农业生产中具有广阔的推广应用前景。2.可应用于农药喷洒及农田灌溉的多用途气悬浮车设计2.1 多用途气悬浮车构造图1(a)为气悬浮车主体结构示意图;图1(b)为气悬浮车剖面结构示意图;图I(C)为气悬浮车控制方向杆及链条传动结构示意图;图1(d)为气悬浮车控制速度踏板结构示意图。图1一种可应用于农药喷洒及农田灌溉的多用途气悬浮车(a)气悬浮车主体结构示意图;(b)气悬浮车剖面结构示意图;(C)气悬浮车控制方向杆及链条传动结构示意图;(d)气悬浮车控制速度踏板结构示意图I-车体;2-蓄电池组;3-车轮;4-螺旋桨;5-顶部电机;6-尾部电机;7-尾部叶轮;8-第一电机;9-第二电机;Io-第

8、一叶轮;U-第二叶轮;12-变阻器;13-控制方向杆;14-控制速度踏板;15-链条;16-前部电机;17-前部叶轮;18-卡槽;19-支点2.2 多用途气悬浮车特点结合图l(a)-(d),我们对该多用途气悬浮车特点进行了阐述。该气悬浮车包括车体1和蓄电池组2,车体1采用仿生鱼结构设计,车体1的底部设置有四个车轮3,车体1的顶部设置有螺旋桨4,螺旋桨4通过设置在车体1顶部的顶部电机5驱动,顶部电机5与设置在车体1内侧底部的蓄电池组2电连接,车体1的尾部设置有尾部电机6,尾部电机6与蓄电池组2之间电连接,尾部电机6驱动设置于车体1尾部的尾部叶轮7转动,车体1的左右分别设置有第一电机8和第二电机9

9、,第一电机8和第二电机9上分别设置有第一叶轮10和第二叶轮11,第一叶轮10和第二叶轮11的轴线均垂直于地而设置,且第一电机8和第二电机9与蓄电池组2均电连接,顶部电机5、尾部电机6、第一电机8和第二电机9与蓄电池组2连接的线路上均设置有变阻器12,变阻器12用于调节各个电机的转速,车体1内的前侧设置有控制方向杆13和控制速度踏板14,控制方向杆13上设置有用于控制顶部电机5和尾部电机6转速的开关,控制方向杆13的底部与车轮3中的前轮连接,控制方向杆13和尾部电机6之间通过链条15连接,通过转动控制方向杆13带动尾部电机6转动,使尾部叶轮7的轴向发生变化,控制速度踏板14与第一电机8和第二电机

10、9的变阻器12连接,通过控制速度踏板14调整变阻器12的滑动位置。车体1的前部设置有前部电机16,前部电机16与蓄电池组2之间电连接,且前部电机16与蓄电池组2的连接线路上也设置有变阻器12,前部电机16用于控制设置在车体1前部的前部叶轮17转动,以辅助车体1减速。车体1上设置喷洒设备(均为现有技术),安装喷洒农药系统或农田水肥一体化灌溉系统,可在车升高到4m以内(最高4m处)进行喷洒农药或喷施水肥液等,用于农田喷洒农药、灌溉等其它用途。此外,该多用途气悬浮车还安装刹车系统和照明系统等辅助设备,可使人们出行方便或供人们旅游景点观光,时速为15km/h-30kmho最大优点是利用电能,方便且环保

11、。平常行驶离开地面15Omm-20Omm(15cm-20cm),也可直接在地面上行驶。多用途气悬浮车中控制方向杆的右把上安装尾部电机开关以及头部电机开关,二者均是逆时针旋转加速,反之减速。在控制方向杆的左把上设置顶部电机开关,分为低速、中速、高速三个速度档位,此处为滑动式开关。其中,在左把和右把上设置小把,即左小把和右小把,左小把作为前刹车系统,右小把作为后刹车系统。多用途气悬浮车中链条也可以通过中心转轴齿轮和驾驶把轴齿轮先连接;然后链条再连接中心转轴齿轮和尾部电机下方齿轮,其中尾部电机下方齿轮轴固定在电机下方尾部,齿轮转动带动电机尾部左右移动使前方叶轮左右摆动从而改变向后吹出的气流方向。多用

12、途气悬浮车中控制速度踏板包括踏板、柄、绷带、支点19及变阻器12,踏板的下柄处设置卡槽18,其作用是当车悬浮时,踏板下柄能卡在卡槽18内,便于车体垂直悬浮平衡。多用途气悬浮车中涉及的所有滑动变阻器在电机不工作时,滑片处在阻值最大值。把轴顺时针旋转,导线缠绕在轴上,使变阻器滑片向上移动,阻值减小。把轴逆时针旋转,导线缠绕在轴上,使头部电机所在电路的阻值变小。多用途气悬浮车的关键部位采用金属,其它次要部位尽量采用轻质材料,如航空材料,目的是减轻车体重,使总重尽可能控制在50kg-70kg左右。多用途气悬浮车利用顶部螺旋桨的快速转动,使车体受到空气向下的压力减小,从而产生上下表面的压力差,且方向向上

13、,即车体受到向上的浮力:F浮向上二F向上-F向下。再利用动力箱内两电机叶轮向下吹出空气流,从而机体受到向上的反作用力,配合原理顶部螺旋桨转动产生的上浮力,共同使车体上升,即F浮G车体总升空。当调节左右两侧电机转速(调节电阻),使F浮二G车体总时,车悬浮在空中。多用途气悬浮车利用尾部电机叶轮产生向后气流冲力,通过反作用力作用于车体尾部向前的推力,使车体水平向前移动。该多用途气悬浮车应用蓄电池的电能转化为车的机械能,更为便捷且环保,而且该气悬浮车由于兼具陆地行驶和空中飞行的功能,且二者能随时切换,如在地面行驶遇到堵车时,即可切换成空中飞行,轻松应对堵车等影响地面行驶的情况。2.3 多用途气悬浮车工

14、作原理与操作要点按下驾驶把大把上的滑动开关(左把),滑片滑到中档或高档位置,顶部电机螺旋桨快速转动,使车体上表面的空气量减少,这时车体上表面受到的向下压力减少。当车体下表面受到的压力大于上表面受到的压力时,从而产生向上的浮力,即F浮向上二F向上F向下。然后用脚踩下左右电机(第一电机和第二电机)脚踩开关,这时左右侧电机转动,逐渐加速,两电机叶轮吹出向下的气流,产生向下的冲力,同时地面及下面空气对车体产生向上的反作用力,使车体受到向上的浮力合力增大,当F浮G车体总时,车体开始上升浮起;当调节左右两侧电机转速(调节变阻器阻值大小),使气流冲力减小,当F浮二G车体总时,车体悬浮于空中,同时踏板下柄置于

15、卡槽内,备注:该气悬浮车第一电机和第二电机的具体位置根据整机的重心位置确定,确保上升平稳。再按下右大把开关,尾部电机转动,右把逆时针旋转,调节所在电路滑动变阻器,使尾部电机叶轮转速加快,从而产生向后的气流,同时空气对车体产生向前的水平反作用力,使车体向前行驶。当车体要减速或停于空中时,断开尾部电机开关,尾部电机将停止工作,同时按下右大把上头部电机开关,顺时针旋转把,同时调节连接的变阻器,使阻值减小,这时头部电机叶轮转动且加快,吹出向前的气流,同时空气对车体产生向后的反作用力阻力,即车体受到阻力而减速停下来,悬浮于空中。车体转向调节:转动驾驶把,由于链条的传动作用,使尾部电机尾部左右移动,促使叶

16、轮左右移动,吹出的气流方向左右改变,从而车体尾部受到的向前反作用力改变方向(相当于鱼尾摆动),同时车头改变左右行驶方向。该气悬浮车在车体向下降落时,使顶部电机电路开关滑片处在低速挡位置,逐渐减小尾部电机转速,同时抬起脚,脚面绷带将带动脚踩开关(脚踏板)下柄脱离卡槽,同时增大两电机所在电路的变阻器阻值,使电路中电流减小,使左右两侧电机转速减小,从而使向下吹出的气流减弱,车体所受向上的反作用力即浮力减小,当F浮VG车体总时,车体开始缓慢降落,直到平稳降到地面上为止,这时完成一次起降任务。3结论基于将电能转化为机械能的原理,我们发明了一种可应用于农药喷洒及农田灌溉的多用途气悬浮车。该新型气悬浮车采用

17、蓄电池作为动力源,并通过多部电动机提供动力源,弥补了现有无人机和悬浮飞行设备动力单一,结构复杂,不易操控,用途有限,成本较高及污染环境等不足。该气悬浮车原理独特,设计巧妙,结构简单,成本较低,便于操控,用途多样便捷、安全且环保,在现代农业生产中具有广阔的推广应用前景。然而现行推广应用采用的蓄电池,其充电能力较低,且充电时间较慢。现已研发出一种充电能力强,充电时间快的新型蓄电池,一次充电十五分钟可使普通私家车行驶五百公里,且这种蓄电池现已应用于军舰上。因此,若将此蓄电池应用于该气悬浮车上,可实现承载量更大、更高速、更便捷的运行;其次,必要的安全、监测装置需要设计应用于该气悬浮车上,使该气悬浮车实

18、现更安全运行;此外,需要对该气悬浮车进行模型测试,对其经济效益进行系统分析。参考文献1唐婿,唐政林,车刚.基于单片机的无人机变量控制系统的设计农机化研究,2018,40(9):115-119.2宋同,蔡焕杰,徐家屯.泾惠渠灌区冬小麦夏玉米连作需水量及灌水模式研究J灌溉排水学报,2017,36(1):52-56,84.引张东彦,兰玉彬,陈立平,王秀,梁栋.中国农业航空施药技术研究进展与展望J.农业机械学报,2014,45(10):53-59.4陆红娜,康绍忠,杜太生,佟玲,丁日升,李思恩.农业绿色高效节水研究现状与未来发展趋势J.农学学报,2018,8(1):155/62.5徐艳蕾,包佳林,付大

19、平,朱炽阳.多喷头组合变量喷药系统的设计与试验J.农业工程学报,2016,32(17):47-54.王玲,兰玉彬,WClintHoffmann,BradleyKFritz,陈度,王书茂.微型无人机低空变量喷药系统设计与雾滴沉积规律研究J.农业机械学报,2016,47(1):15-22.7吕名礼,张瑞,黄丹枫.蔬菜高效水肥一体化灌溉技术的实践与发展建议J.长江蔬菜,2016,(14):31-35.l8AstrandB,BaerveldtAJ.Avisionbasedrow-followingsystemforagriculturalfieldmachineryJ.Mechatronics,200

20、5,15(2):251269.9薛新宇,兰玉彬.美国农业航空技术现状和发展趋势分析J.农业机械学JR,2013,44(5):194-201.10周志艳,臧英,罗锡文,LanYubin,薛新宇.中国农业航空植保产业技术创新发展战略J.农业工程学报,2013,29(24):1-10.11刘剑君,贾世通,杜新武,邓明俐.无人机低空施药技术发展现状与趋势J.农业工程,2014,4(5):10-14.熊新民,吴振江,杨茅难,朱模勇,伍琦.江西棉区小型无人机飞防作业的实践与体会J.棉花科学,2016,38(6):45-48.13王斌,袁洪印.无人机喷药技术发展现状与趋势.农业与技术,2016,36(7):

21、59-62.【摘要】近年来,涉农网络舆情事件突发、频发,对农业农村经济工作的影响日益深刻。建设三农舆情监测平台,密切关注“三农”网络舆情,有利于我们把握规律、发现问题、预判动向、有效应对,有利于我们抢占舆论制高点、掌握舆论主动权,为农业农村经济发展营造良好的舆论环境。本文主要分析了舆情系统的背景和发展现状,针对三农舆情平台的建设的架构、功能模块,以及在开发过程中所涉及到的网络爬虫技术、中文分词技术、文本特征提取技术、热词识别技术等进行分析和介绍,并通过案例进行分析。【关键词】三农舆情监测;大数据;信息采集;热点词1.引言随着互联网技术的迅猛发展和信息传播方式的深刻变革,全社会已置身于包罗万象、

22、瞬息万变的网络舆论舆情新格局之中。某个突发事件在网上刚一曝光,即可迅速引爆全国舆论,把地区性局部性和带有某种偶然性的问题,变成全民围观的公共话题。中央对媒体宣传和网上舆论工作的一系列部署,表明了中央对营造网络好环境、占领舆论制高点、构建媒体新格局、传播网络正能量的高度重视。各级政府部门高度重视网络舆情工作,不断加大工作力度、完善工作手段、探索工作机制。网络舆情监测平台在政府部门正确应对网络舆情、妥善处置突发事件中发挥了重要作用,成为政府部门加强网络舆情工作的重要抓手。研究在基于主题爬虫技术研究的基础上,实现了三农舆情监测管理平台。该平台一方面提升工作技术手段以完成当前日益紧迫的舆情监测任务,另

23、一方面为全面利用大数据技术开展“三农”舆情数据测监测和分析积累实践经验。平台通过监控网络重要的新闻站点、新浪微博、微信、重要论坛、博客来发现舆情信息。对发现的重大、敏感舆情通过专题进一步跟踪,通过各种数据源进行数据补充,为舆情的处置提供一定的依据。2研究内容一般而言,舆情处理流程如图1所示,其中舆情系统主要负责发现重大舆情线索,全局掌控舆情散步、传播及扩散的态势,然后监控人员结合系统进行辅助研判,上报重大的舆情。图片图1三农舆情处理流程围绕舆情处理流程,本着数据集中化、统计标准化、流程规范化、应用成熟化的建设原则,平台的总体架构设计如图2,分为数据采集、数据存储、数据分析和数据可视化呈现四大部

24、分。图片图2平台的总体架构为了能够更好的保证数据和网络的安全性,对舆情平台服务器的使用进行了合理的分区,如图3所示,主要分为三个部分:采集服务器、数据库服务器和Web服务器。数据库服务器又分为三个存储库:原始页面库、结构化元数据库和舆情结果库。原始页面库、结构化元数据库都是离线存储分析库,舆情结果库是一个在线数据库。数据写入单行延时都要控制在10亳秒内,读取高性能要保持在亳秒级别。根据应用需求,舆情结果可以设置TTL,只提供近期数据的查询,较老的舆情自动过期删除。图3舆情服务器部署架构采集服务器主要用来采集平台所监控的站点数据,将数据实时发布到数据库服务器中。数据库服务器用来存储采集的元数据,

25、并执行内容去重、无用信息过滤及关键信息提取等,同时响应Web管理服务器的舆情查询。Web服务器主要用于部署平台,为了可以支撑海量数据存储(TB/PB级别),高并发访问(十万TPS千万TPS),访问延时低,数据存储在选型上我们选用了NOSQL来解决海量数据的存储访问。同时一天内,不同时间段爬虫爬下来的网页数也会有明显波峰波谷,所以数据库需要可以弹性扩展和缩容。2.1 基于主题的舆情数据采集技术数据采集是舆情工作的首要任务,主要包括对主流网络媒体、微博、微信、论坛以及博客上涉及涉农舆情信息的监测和自动抓取。平台采用主题爬虫技术实现了基于主题的舆情数据采集。主要原理是在搜索过程中只选择与三农相关的页

26、面进行访问,在遍历web的时候,根据一定的网页分析算法过滤掉与三农主题无关的链接,保留有用的链接并将其放入等待抓取的Url队列。为了保证对监控站点的信息采集做到不漏采,平台采用分布式的消息队列方式提高采集的并发度,流程如图4所示:图4主题爬虫的工作流程在舆情数据的采集策略上,为了防止对方网站的ip封禁,在进行数据采集时增加了ip代理,每次请求均会变化ip,降低网站的ip封禁;对重要的中央媒体、商业网站、地方重要站点等进行全站配置,并根据标记的更新频率调整采集频率;为了解决一些没监控站点的信息漏采,通过百度和360等搜索进行所有关键词的搜索结果进行采集,并与库中监控数据实时对比,来弥补定向监控的

27、漏采问题;在采集时随着采集的数量越来越大,链接在入库的时候采用BloomFilter算法来提高判重的计算时间。2.2 舆情信息的处理与分析技术2.2.1 网页去噪网页是采用html标记的一种半结构化数据,从网页标签中提取正文文本,网页自动摘要之前就需要进行一次页面的去噪1。尤其是获取的网页中存在大量与我们所关心内容无关的导航条、广告信息、版权信息以及调查问卷等被称之为“噪音”的内容,这些内容对于内容的提链和特征数据(比如关键词、摘要、标题、正文等)的提取会造成很大的干扰,需要在使用前去噪。网页常见三种去噪方法:基于网页结构的方法2,3,4、基于模板的方法5和基于可视化的方法16,7o在对现在这

28、三类网页去噪方法进行了对比分析的基础上,综合应用这三类方法进行网页去噪。2.2.2 特征提取特征提取主要包括实现半结构化/无结构化网络资源的元信息抽取,针对新闻、论坛、博客等数据源,实现标题、日期、作者、来源等要素全自动数据抽取实现社会网络中用户访问行为的要素分析与提取,如点击量、回复量、访问,IP、播放量等,实现按天和按时段的增量采集抽取。特征的抽取主要分为两步:第一步是在分词的基础上进行特征选择,第二步是在特征选择的基础上进行特征的二次变换完成抽取过程。本平台在具体实施的过程中采用N-Gram的算法对舆情信息进行特征提取并计算权重,然后利用SIPO本体对原始特征进行相应的抽取和转换,从而得

29、到一篇文本的特征向量。2.2.3 中文分词在进行文本主题分析之前,需要先利用中文分词预处理技术将中文文档中的内容切分成具有明确意义的词项。常用的分词算法主要是基于规则的和基于统计的,目前研究成果和成型的分词工具很多,比如中科院计算所的NLPIR.ansj分词器、哈工大的LTP、清华大学的THULAC、斯坦福分词器、HanIP分词器、结巴分词、KCWS分词器、ZPar、IKAnaIyZer等,目前这些工具被广泛的应用,应用效果也不错。中文分词的难点在于分词的标准、对于待切分字符串的有歧义、对于未收录的新词如何处理这三个问题。不论什么样的分词方法,优秀的词典必不可少,老的词典对新的文本进行分词,就

30、会造成分词的结果一团糟。为了节省存储空间提高数据的采集效率,分词时会根据建设的停靠词库(主要是语气组词、介词、系动词、副词、连词)进行去噪。2.2.4 2.4内容去重去重包括网页抓取时链接的去重和正文内容相似的去重去除重复信息不仅能够节省资源,还能够给用户带来更好的体验。去重之前有的需要统计相同的一篇文章分别出现在哪些网站上面,总共出现了多少次这些,所以在提交监控时也需要让需要选择一下是否需要去重,如果用户需要看重复的内容这些就需要保留。关于网页去重的中文文献有很多,综合起来主要有下面几种方法:DSC算法(Shingle)、DSC-SS算法、I-MatCh算法、SimhaSh算法、VSM模型、

31、SCAM算法布尔模型,还有中文特有的特征码索引方法等。2.2.5 主题相关性分析该模块主要通过关键词集的方法来确定主题,首先是将网页的标题和正文表示成向量的形式,通过中文分词得到一个主题网页的向量表示,通过与训练得到的主题向量进行相关度比较,按照设定的主题阈值来判断当前网页是否是相关网页,其中训练得到的每个关键词都拥有指定的权限值。权限的设置方法:手工设置和特征提取。特征提取是指给定一个和主题有关的网页集合,由程序自动提取这些网页里面共同的特征,并根据频率确定权值。手工设置的好处是实现简单,同时人的经验一般比较准确,跟实际情况不会出现大的偏差,缺点是可能有缺漏,权值的量化定义不够精确;特征提取

32、的优点是权值量化定义精确,但要求选取用来提取特征的网页集合必须是很有达标性和全面概括性的,否则就可能出现很大的偏差。本系统根据实际情况使用手工设置一组关键词并分配权值。“三农”网络舆情千头万绪、错综复杂,应结合舆情平台的开发,做好“三农”网络舆情内容体系建设,确立重点突出、分类科学的舆情内容体系其中,一要做好“三农”网络舆情关键词整理、挖掘工作,二要做好“三农”网络舆情语料库分类、填充工作,三要针对各省需求做好有针对性的监测内容匹配工作。对于关键词的整理,除了结合长期的工作经验提取人工整理一批外,平台还以大量的词句段落作为基础学习材料,立足于建设精准的信息清洗能力,快速过滤垃圾信息、排除重复信

33、息,对抓取的信息自动提取摘要、自动生成关键词,并进行精准的聚类和简洁的呈现,不断提升信息甄别清洗的效率和分类统计的准度。2.2.6 舆情分析舆情分析是建立在信息采集和预处理的基础上,舆情分析的质量和深度直接影响舆情分析结果的准确度和可信度。2.2.7 自动摘要自动文摘的方法主要分为两类:extractive和abstractiveo前者是目前最主流、应用最多、最容易的方法,后者相对来说更有一种真正人工智能的味道。还有另外一种分类方法是,单文档摘要和多文档摘要,前者是后者的基础,但后者不只是前者结果简单叠加那么简单。由于本平台采集的数据量较大,为了能够更快的为每篇文章快速提取摘要,采用了第一种抽

34、取式的方法(TextRank),即通过抽取一篇文档中的一句或者几句话来概括一篇文章的核心思想。抽取型文摘,一般分为如下几个步骤:StePL预处理:包括编码转换、断句等;StepZ特征提取:如分词、统计词频、关键词抽取、名实体识别、词语(语句)位置信息、段落结构信息等;St叩3.语句权重计算:权重的决定因素包括词语位置(句首)、是否是指示性词语即第一或者最后这种、是否是名实体、是否在标题中、词的情感因素、ngram信息等;Step4.按计算权重对语句排序,根据比例抽取文摘句;Step5.根据语句在原文中出现的顺序重新排序,并对生成文摘进行润色,如:指代消解。3舆情平台运行实例和结果分析3.1 舆

35、情监测数据范围平台立足于建设强大的信息抓取能力,针对不同网站平台的构架特点,进行覆盖全网的深度监测,实现可扩展的多通道高效采集技术为用户提供监控源配置功能,可以对监控源的优先级进行配置调整。平台的监测范围重点包括以下几种载体:新闻载体:由于新闻网站众多,为了能够更好的对站点进行管理和采集,将站点进行了分类:中央媒体:如新华网等,进行全时重点监测;商业门户:如新浪网、凤凰网等,进行全时重点监测;地方媒体:包括港澳台媒体,如红网、大公网等,监测范围延至县级媒体平台;国外中文媒体:如联合早报网等;行业网站:如三农在线等,关注一批影响力强、资讯量大的行业网站。论坛网站:如天涯等,关注一批网络知名度高、

36、网民活跃度高的论坛网站;博客网站:如新浪博客等,建立一批需要常规监测的博主名单;微博网站:如新浪微博等,建立一批需要常规监测的微博大V名单;微信:对微信公众号的数据进行实时的监控;视频:针对广电媒体等重要的视频数据进行监控;App:针对重要的手机app数据进行监控。3.2 热词分析热词提取对于监控和分析农业舆情具有重要意义,目前已有一定研究基础,但仍存在针对性差等问题,无法满足农业领域不同产业用户群的个性化需求。为此,和中国农业大学合作提出一种基于农业网络信息分类的热词自动提取方法19,具体的处理流程见图5。首先采用多标记分类算法对文本语料进行分类,按分类类别构建语料库,然后采用基于信息燧的方

37、法对每个类别分别提取热词候选词,最后采用基于时间变化的方法进行候选词热度计算,根据候选词热度排序结果得到热词。本文抽取农业网站上的15354条文本进行实验。结果表明,热词提取准确率达到90%以上,能够较高质量地提取农业热词,为不同农业用户群体发现和分析产业热点提供帮助。图5热词提取流程图3.3 预警研判331舆情指数体系建设主要是通过对信息的首发媒体、转载数量、内容主题、跟帖数量、感情倾向、传播路径、演化趋势等属性维度进行权重分配和指标量化,合理设计、科学建立“三农”网络舆情指数指标体系。根据信息的舆情指数,对信息作出综合研判分析,为舆情信息预警提供科学依据。舆情指数如图6所示:图6舆情研判指

38、数332关键词预警:预警规则:通过设置预警关键词,对包含预警关键词的信息进行预警报告。预警等级:实行三级预警等级,第一级黄色预警信息,即需要关注的信息;第二级橙色预警信息,即需要深度监测的信息;第三级红色预警信息,即需要应急处置的信息。其余未标明颜色的信息为普通信息。预警方式:采取弹窗、短信、邮件等多种方式进行自动预警或者人工预警。3.3.3预警预测根据历史舆情事件发生的规律,提前预知网络舆情转到线下的活动预测的方式有两种,一种是对历史数据进行拟合得到相应的预测模型进行舆情的趋势预测;另外一种则是对于三农上比较具有规律的舆情进行历史数据的统计分析,分析其规律数据,作为政府和企业决策的基础。33

39、4热点识别与追踪目前主流的热点追踪算法都采用文本聚类技术来实现,常见的六大聚类算法为:K-MeanS聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型的最大期望聚类、凝聚层次聚类、图团体检测,但是这些基础的算法在处理大量的网页时,都很难精准聚合中心结果,本平台根据文章标题自动挖掘热点关键词,以关键词为线索进行话题的聚类,同时采用基于K-Means的增量聚类算法进行文本的聚类,经过实验对比漏报率下降到10.7%,误报率下降到了0.78%。本平台上舆情热点包括三类:L突发事件:一般是突发的,具有偶然性与个别性,出现后持续几天或者几周就结束了。如,北京超市活鱼消失罗生门等。2 .常热话题:全年都

40、是热点关注的。目前存在十大常热话题:一是农产品质量安全、二是农业生产与粮食安全、三是农村土地、四是奶业、五是农民收入与农民工、六是农村资源环境、七是转基因、八是农产品市场与品牌、九是“互联网+”现代农业、十是产业扶贫。3 .热门专题:每年定期出现的。如两会、中央农村工作会议、春耕、三夏、秋收等。平台除了将新闻、论坛等不同载体的信息聚集到一起之外,还可以对信息的时间发展进行追踪,主要目的在于发现整个事件发展的核心,以便找准主力点进行解决问题和后续同类事件提前做好预防,最后将监控分析结果及数据分析报告,推送至相关职能部门,以供制定对策使用。4 .5意见领袖挖掘在互联网上,部分用户会积极接受并传播某

41、些信息和观点并对其它用户产生重大的影响即“意见领袖”,引导并监督这些用户的行为就可以高效的影响到网络上的大部分用户,因此实时准确地挖掘这些意见领袖,对于已经成型的、稳定的舆情监测具有重要的意义。平台上主要实现对微博大V、论坛大V、博客大V、微信公众号大V的挖掘和监督。在具体的平台开发中引用LeaderRank算法10并结合活跃度等因素来提高意见领袖自动挖掘的准确度,主要是从合作网络的拓扑结构出发识别合作影响力高的作者,然后在网络拓扑结构基础上,考虑作者的引用影响力,分别从合作影响力和引用影响力两个维度进行重要作者的识别。参考文献:11万乐.网页的预处理技术D.吉林:吉林大学硕士论文.2008:

42、20-24.2 Shian-HuaLin5Jan-MingHo.DiscoveringinfbrmativecontentblocksfromWebdocumentsCJ.SlGKDD2002,15(10):588-593,2002.张志刚,陈静,李晓明.一种HTML网页净化方法J.情报学报,23(4):387-393,2004.14常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分J.计算机工程与应用,40(16):129/3,2004.6 WangJiyingLochovskyFH.Data-richsectionextractionfromHTMLpagesC.Proceedingof

43、theThirdInternationalConferenceonWebInfbrmationsystemsEngineering(Worksshops),SingaporezIEEECoinputerSociety,20(2):313-322,2002.15欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法J.清华大学学报(自然科学版),45(9):1743-1747,2005.CaiDeng,YuShi-peng,WenJi-rongetal.ExtractingcontentstructureforWebpagesBasedonvisualrepresentationC.Proceedingofth6thAsiaPacificWebConference.XianzSpringer,33(16):406-417,2003.7AFast,MinimalMemory,ConsistentHashAlgorithmJohnLamping,EricVeach.8段青玲,张璐,刘怡然,王沙沙.基于农业网络信息分类的热词自动提取方法J.农业机械学报.9IvL,ZhangYC,YeungCH,etal.Leadersinsocialnetworks,thedeliciouscaseJ.PloSone,2011,6(6)x21202.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号