搜索
查看: 3177|: 0

大数据中文采集:灵玖ELINT 网络舆情系统

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2016-9-5 15:05:11 | 显示全部楼层 |阅读模式
  网络舆情监测需要在互联网的海量信息中监测关注的舆情,工作时效性要求非常高。仅依 靠人工浏览的方法很难应对网上海量信息的收集和处理,这就需要现代信息网络技术,尤其是自动化的计算机软件系统的支持。运用计算机软件系统来收集、整理、筛选、关联互联网上的 舆情信息,将人从枯燥繁杂的重复劳动中解放出来,从而抽出精力进行更有价值的舆情规划和疏导工作。
  ELINT 网络舆情挖掘系统关键技术:
  精准采集技术-自主知识产权
  1)、定向采集、元搜素采集、并行采集;
  信息采集系统主要有以下几种类型:针对整 Web 的网页采集,增量式网页采集, 基于主题的网页采集,基于用户个性化的网页采集,基于 Agent 的网页采集,迁移的网页采集 ,基于元搜索的网页采集等。其中针 对整个 Web 的网页采集和增量式网页采集是最成熟也是在业内应用最广泛的两种网页采集的方式,而其他的网页采集形式则 主要是网页采集领域新的研究和发展趋势的体现。
  2)、针对动态链接生成的 WEB 技术;
  ELINT 网络舆情采集系统可以有效的处理动态链接生成问题,系统具有强大的 JavaScript 解释执 行能力,可以解释执行 JavaScript 函数,生成相应的链接。事实上,对于动态链接生成技术 的处理又可以分成两种具体的情况,一种是通过执行 JavaScript 函数生成一个新的网页链接, 另一种是通过 JavaScript 执行,对这个页面进行一些修改(与客户端动态页面技术相同), 从而形成一个新的页面。对于这两种情况,无论是一个新的链接 URL,还是由原页面转化生成的新页面,都可以作为一个新的页面保存下来进行进一步的分析,也就从根本上解决了动态 链接生成的问题。
  3)、针对 Ajax 页面的处理技术;
  为了不断满足WEB应用的需要,WEB技术也不断发展和进步,Ajax全称是Asysnchronous JavaScript and XML(异步 JavaScript 和 XML)。相信仅从名称上对它的含义还不好理解,简单 的说,Ajax 可以理解为“增强的 JavaScript”,实质上他提供了一种可以调用后台 WEB 服务器 获得数据的客户端 JavaScript 技术,它支持更新部分网页内容时不重载整个网页。
  4)、采集行为隐藏技术;
  通常 WEB 服务器会对短时间内、来自同一个 IP 的大量请求进行限制,因为这种访问行为 会给 WEB 服务器带来比较大的负载,WEB 服务器会把这种访问行为作为一种攻击来拒绝掉。 为了达到隐藏采集行为的目的,本系统采取了多种可行的策略,具体的策略包括以下几个方面:
  IP 地址变换的策略,在采集的过程中不断变换 IP 地址,从而让服务器感觉到请求行为来 自于不同的 IP 地址,这样可以避免 WEB 服务器对大量的同一个 IP 地址的访问行为进行拒绝。
  多个网站同时并发访问的策略:为了保证采集的效率,采集系统通常是多个网站同时并发 访问,可以设置适当的并发策略,使得不会向同一个网站在短时间内发送过多的访问请求,这 样既可以保证采集的效率,同时又不会给被采集的网站带来太多的压力,减少了被发现的可能性。
  变频的请求策略:对于同一个 WEB 网站,在发送页面请求时采用变频的发送策略,尽可 能模拟一般 WEB 用户的浏览行为,来减少被 WEB 服务器发现的可能性。
QQ截图20160905143118.png

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-5-22 08:52 , Processed in 0.074906 second(s), 27 queries .

快速回复 返回顶部 返回列表