中国第一时间 > 新闻 > 国内 > 正文

易海聚|面向科技情报的网络信息自动采集分析技术应用

2019/9/17 16:31:35 来源:中国第一时间

科技情报人员通常通过两种方式获取互联网信息:一是通过搜索引擎对某一主题相关的信息进行全面搜索;二是对所关注的领域积累大量有价值的网络信息源,通过对这些信息源持续跟踪而获得领域动态。第二种方式是一个长期而持续的工作,是进行技术预警、技术热点发现与跟踪、技术发展趋势预测等重要工作的基础。因此,全面掌握所关注领域相关的互联网信息源,对科技情报人员来说至关重要。

现状

互联网信息源是指互联网上能够提供信息的各类媒体,各种机构、院校、企业几乎都拥有自己的网站甚至社交媒体账号,大量科技工作者通过各种社交媒体向外界发布着科技类消息,因此这些网站和社交媒体账号都是科技工作人员潜在的信息源。随着互联网的发展,互联网信息源的数量也不断增长。传统人工积累搜集互联网信息源的方式已经不能满足大数据时代对科技情报工作的要求,因此必须对互联网信息源的自动发现技术开展研究。

互联网信息源是互联网数据的生产者,信息源种类和数量的增加以及活跃度的提高,导致了数据的爆炸式增长。全世界数据总量以每两年翻一番的速度递增,而近十年来增长最快的当属互联网数据。未来的任务主要不是获取越来越多的数据,而是数据的去冗分类、去粗取精,提高知识发现的产出率。要在不明显增加采集成本的条件下尽可能地提高数据的质量。这就要求在采集互联网信息时尽量选择与研究领域紧密相关的信息源,减少不必要的数据采集。如何获取相关性强、权威性高、时效性强的信息源,并能够及时有效地把信息源提供给科技情报研究人员,是一个重要的研究课题。

103-1Z1291I3215I.jpg

 

易海聚信息自动发现技术应用

 

相比人工搜集方法,深圳市易海聚信息技术有限公司(www.ehaiju.cn)的解决方案中提出的信息源自动发现方法具有自动高效、覆盖面全、自动翻译、对新产生信息源反应快等明显优势。为了提供完善的应用服务,需要进一步对信息源进行标注和分类,建立国别地区、技术领域、应用范围、所有者性质(如个人、政府机构、大学院所)等维度的分类体系。然后根据信息源对应网站和微博的标题、关键词、摘要等描述信息,利用机器学习方法实现对信息源的分类和组织,最后形成完备的信息源库。结合大数据时代对科技情报工作提出的新要求,易海聚信息源自动发现技术具有如下应用场景。

易海聚信息搜集平台1.png

 

(1)构建信息源地图,系统掌控全球科技信息资源

信息源地图指的是用可视化手段对信息源的综合展示,利用地图、热图和网络图等多种形式来展现科技领域信息源的地理位置、活跃度、统计分布、类别、信息源间关联交互等情况。通过一个全面、准确、动态的互联网信息源地图,决策人员和情报研究人员可以对科技信息资源进行全局把控和分析,从更高层次上挖掘发现其特点和规律,预测其变化趋势,具有重要战略意义。

 

(2)实现信息源检索服务,为情报研究工作提供保障

提供完善、灵活的信息源检索服务,为情报研究人员实现对科技领域互联网信息的持续跟踪和完成各项应急任务提供有力保障。其检索形式主要有以下3种。

目录式检索:用户通过分类层次目录方式检索库中已存在的信息源。
       关键字检索:通过匹配信息源对应的描述性信息,检索库中已存在的信息源。
       种子检索:当利用以上两种方式无法检索到所需要的信息源时,说明库中可能不存在该类信息源,这时用户可以输入已有信息源作为种子,通过服务系统在线挖掘获得新信息源。
除提供以上3种基本检索服务外,还可以开发个性订制和相关推荐等多种形式的智能服务。

(3)自动翻译和对照阅读全球各种语言的信息

通过易海聚的网络信息搜集技术手段全球性的搜集,可以保证了信息的完整性,但是又会带来新问题:很多科技情报信息为其他语言,比如英语、法语、日语、俄语、西班牙等等,情报研究人员不可能对多种语言都能有直接阅读能力,特别是很多专业词汇。易海聚系统就能完美的解决此问题,通过多种途径来翻译各种主流语种,并且可以做对照阅读和编辑校对。

易海聚信息搜集平台3.png

(4)全面、深度挖掘科技信息源,为科技情报大数据提供数据来源

自动、高效、全面发现科技领域的信息源,建立标准的访问接口,实现与互联网海量信息采集平台无缝连接,为成规模的互联网信息资源获取提供必要前提。依据具有高度领域相关性的信息源采集数据,能够提高互联网数据采集的精准性和针对性,减少噪声数据的干扰,降低带宽、存储和计算成本。

易海聚信息搜集平台2.png

结束语

易海聚(ehaiju.cn )互联网信息自动发现技术能够高效发现大量新信息源,但较大的数量可能会使科技情报人员应接不暇,同时无法保证每个新信息源都是真正需要的,对新信息源的二次甄别也会影响其有效利用。值得庆幸的是,易海聚大数据相关技术已经广泛用于互联网信息的海量采集、处理和分析,大大提高了科技情报工作的效率,本文技术的直接用户更倾向于机器,而非情报人员本身。


  声明:如若本网有任何内容侵犯您的权益,请及时联系QQ:1530024013 本站将会在24小时内处理完毕。


惊艳不张扬,青岛啤酒·2019第十二届武

秋高气爽,丹桂流芳,年度不可错过的盛事青岛

科普讲座常开展,健康知识入民心——光

今年以来深圳市深入贯彻习近平总书记按照“

九恒星喜获科技金融峰会“最具投资价值

互联网技术的突飞猛进,让FinTech为金融领

TCL李东生:产品力是撬动品牌全球化新

作为全球科技圈的盛事,2018 IFA展正在如火

“关健之爱 同心童行”,儿童关节炎义

专家呼吁公众应提高疾病认知,早发现早诊疗



关于我们联系我们

不良信息举报热线:QQ1530024013 

中国第一时间 版权所有 违版必究