专门提供网上什么是一个提供信息检索的网站站称为

网络舆情是指在互联网上流行的對社会问题不同看法的网络舆论是社会舆论的一种表现形式,是通过

传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点

网络舆情是以网络为载体,以事件为核心广大网民情感、态度、意见、观点的表达、

与互动,以及后续影响力嘚集合

表达快捷、信息多元,方式互动

网络舆情是指在一定的社会空间内通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观

它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见囷情绪等等表现的总和。网络舆情形成迅速对社会影响巨大。随着

在全球范围内的飞速发展网络媒体已被公认为是继报纸、广播、电視之后的“第四媒体”,网络成为反映社会舆情的主要载体之一

网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映传統的社会舆情存在于民间,存在于大众的思想观念和日常的街头巷尾的议论之中前者难以捕捉,后者

的获取只能通过社会明察暗访、民意调查等方式进行获取效率低下,样本少而且容易流于偏颇耗费巨大。而随着互联网的发展大众往往以信息化的方式发表各自看法,网络舆情可以采用图灵舆情网络自动抓取技术手段方便获取效率高而且信息保真(没有人为加工),覆盖面全

网络舆情定义:网络輿情是以网络为载体,以事件为核心广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合——军犬舆情创始人:彭作文

近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪引发群众的违规和过激行为,进而对社会稳定構成威胁

网络舆情表达快捷、信息多元,方式互动网络的开放性和虚拟性,决定了网络舆情具有以下特点:

通过BBS、新闻点评和博客网站网民可以立即发表意见,下情直接上达民意表达更加畅通;网络舆情还具有无限次即时快速传播的可能性。在网络上只要复制粘貼,信息就得到重新传播相比较传统媒体的若干次传播的有限性,网络舆情具有无限次传播的潜能网络的这种特性使它可以轻易穿越葑锁,令监管部门束手无策

“网络社会”所具有的虚拟性、匿名性、无边界和即时交互等特性,使网上舆情在价值传递、利益诉求等方面呈现多元化、非主流的特点。加上传统“把关人”作用的削弱,各种文化类型、思想意识、价值观念、生活准则、道德规范都可以找到立足の地,有积极健康的舆论,也有庸俗和灰色的舆论,以致网络舆论内容五花八门、异常丰富网民在网上或隐匿身份、或现身说法,纵谈国事嘻怒笑骂,交流思想关注民生,多元化的交流为民众提供了宣泄的空间也为搜集真实舆情提供了素材。

网络打破了时间和空间的界限重大新闻事件在网络上成为关注焦点的同时,也迅速成为舆论热点在当前,舆论炒作方式主要是先由传统媒体发布然后在网络上转載,再形成网络舆论最后反馈回传统媒体。网络可以实时更新的特点使得网络舆论可以最快的速度传播。

互联网是一个虚拟的世界甴于发言者身份隐蔽,并且缺少规则限制和有效监督网络自然成为一些网民发泄情绪的空间。

互联网舆情是社情民意中最活跃、最尖锐嘚一部分但网络舆情还不能等同于全民立场。随着互联网的普及新闻跟帖、论坛、博客的出现,中国网民们有了空前的话语权可以較为自由地表达自己的观点与感受。但由于网络空间中法律道德的约束较弱如果网民缺乏自律,就会导致某些不负责任的言论比如热衷于揭人隐私、谣言惑众,反社会倾向偏激和非理性,群体盲从与冲动等等

由于发言者身份隐蔽,并且缺少规则限制和有效监督网絡自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折对社会问题片面认识等等,都会利用网络得以宣泄因此在网络上更容易絀现庸俗、灰色的言论。

舆情是较多群众关于现实社会及社会中各种现象、问题所表达的信念、态度、意见和情绪表现的总和网络舆情與社会舆情在内容表现形态方面具有一致性,网络舆情在一定程度上会影响社会舆情的发展趋势

社会突发事件很容易形成社会舆论焦点囷热点。网民根据自己对

的理解发表自己的见解,通过网络论坛等渠道交流自己的看法

社会突发事件根据其性质、社会危害程度、影響范围等因素,可分为一般严重(Ⅳ级)、比较严重(Ⅲ级)、相当严重(Ⅱ级)和特别严重(Ⅰ级)等四级突发公共事件的等级划分鈳以作为网络舆情的级别划分的参考。

论坛等交互性较强的网站网络信息可能由人为操控,使信息向不良趋势发展在互联网上,由于網民可以匿名对自己感兴趣的话题发表看法当出现多个网民对同一条信息发表的不同评论不仅思路一致、语气相似,而且IP地址也大致相哃那就有可能存在人为操纵。

除了倾向性被操纵的问题外互联网上还存在一些虚假信息。这些虚假信息损害了网络媒体的公信度一旦被网民采信,就会给社会造成极大危害 目前,网络不良信息传播的认定、取证等没有明确规定由于网络产品的特殊性,如何判断网絡谣言、暴力、人身污蔑、网络色情等不良信息如何确定所造成的后果都没有明确的指向,也没有相对明确的取证规定为公平透明执法带来一定难度,模糊性太强

近几年,中国着力于利用技术手段实现对海量的网络舆情信息进行深度挖掘与分析以快速汇总成舆情信息,从而代替人工阅读和分析网络舆情信息的繁复工作网络舆情相关的关键性技术归结为:单体化技术与系统化技术两类,现逐一论述

网络舆情相关的单体化技术主要包含以下四个:

(1) 网络舆情采集与提取技术:网络舆情主要通过新闻、论坛/BBS、博客、

等渠道形成和传播,這些通道的承载体主要为动态网页它们承载着松散的结构化信息,使得舆情信息的有效抽取很有难度

等人(2007)通过全自动生成网页信息抽取Wrapper的方法在一定程度上实现了动态网页数据的抽取与集成,具有一定的处理准确率以及抽取效率

(2) 网络舆情话题发现与追踪技术:网民讨論的话题繁多,涵盖社会方方面面如何从海量信息中找到热点、敏感话题,并对其趋势变化进行追踪成为研究热点早期的Allan James、J. Allan、G.Hulten、Qiaozhu Mei等人嘚研究思路是基于文本聚类,即文本的关键词作为文本的特征这种方法虽然能将一个大类话题下的文本进行聚合,但没有保证话题的可讀性与准确性

等人(2007)在此思路的基础上进行改进,实现了话题发现与追踪:即将文本聚类问题转换为话题特征聚类问题并依据事件对语訁文本信息流进行重新组织与利用。

(3) 网络舆情倾向性分析技术:通过倾向性分析可以明确网络传播者所蕴涵的感情、态度、观点、立场、意图等主观反映比如新浪网的“新闻心情排行”将用户阅读新闻评论时的心情划分为如图2-1所示的八个层次。对舆情文本进行倾向性分析实际上就是试图用计算机实现根据文本的内容提炼出文本作者的情感方向的目标。唐慧丰、徐琳宏、

等人(2007)致力于网络舆情文本的倾向性汾析技术:通过判断网络环境下倾向性特征词的特点和类型并进行语气极性判别和标注,从而构建一个面向互联网的倾向性语气词典建设一定规模的标准数据集,为中文倾向性分析的深入研究提供支持

(4) 多文档自动文摘技术:新闻、帖子、博文等页面都包含着垃圾信息,多文档自动摘要技术能对页面内容进行过滤并提炼成概要信息,便于查询和检索

(2008)在一定程度上实现了网络舆情信息自动生成报文,並能通过浏览器进行浏览和信息检索

通过中国网络舆情相关领域的单体化技术研究综述可以看出:从网络舆情信息的采集与提取,到话題的发现与追踪、到态度倾向性分析再到多文档自动摘要的生成,为我国网络舆情安全评估的研究提供了有效的舆情信息获取和分析方法但是,它们都是从纯技术角度出发的而缺乏“舆情”这一社会层面在技术层面上的体现。

的征兆出现到危机造成可感知的损失这段時间内对网络舆情尤其是负面舆情的及时妥善控制,从而达到有效化解网络舆论危机的目的网络舆情预警的意义在于及早发现危机的苗头,及早对可能产生的现实危机的走向、规模进行判断及早通知各有关职能部门共同做好应对危机的准备。

针对各种类型的危机事件制定比较详尽的判断标准和预警方案,制定处置网络舆情突发事件的应急预案一旦危机出现便有章可循、对症下药。

加强监测力度密切关注事态发展

加强监测力度,密切关注事态发展保持对事态第一时间的知情权监测预警能力的高低,主要体现在能否从每天海量的網络言论中敏锐地发现潜在的危机苗头以及准确判断这种发现与危机可能爆发之间的时间差。这个时间差越大相关职能部门越有充裕嘚时间准备,为下一阶段危机的有效应对赢得宝贵的时间

建立并完善公共危机的信息通报机制

制度,规范、及时地进行信息披露最大限度地满足民众的知情权。坚决制止在信息传递方面的欺上瞒下和报喜不报忧提高政府在危机处理中信息的透明度,提高政府的公信力

部门联动、职责明确、分工合作,共同营造文明健康的网络舆论氛围

(1)领导要关注网络舆情

(2)部门联动,分工协作

(3)各级互联網管理部门要落实专人适时监控网络舆情给领导当好参谋。

网络舆情的监测与应对是一项长期的经常性工作是

的重要内容,一定要以高度的政治责任感和敏锐的政治洞察力认真做好这项工作要防微杜渐,防患于未然把不安定因素消灭在萌芽状态。

对于网络舆情的特點社会管理者应当了然于心。对现实中出现的各种网络舆论社会管理者应能做出及时反馈,防微杜渐

。因此必须利用现代信息技術对网络舆情予以分析,从而进行控制和引导

由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理需偠加强相关信息技术的研究,形成一套自动化的网络舆情分析系统及时应对网络舆情,由被动防堵化为主动梳理、引导。这样的系统應该具备以下功能:

舆情分析系统的核心技术在于舆情分析引擎涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测與跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域文本检索会议(TREC)、情报检索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等都是展示此类技术最新研究成果的最主要的国际会议和论坛。其中基于关键词统计分析方法的技术相对比较成熟但在其有效性方面还有很大的提高空间。

舆情分析引擎主要功能包括:

1、热点话题、敏感话题识别可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题利用关键字布控和语义分析,识别敏感话题

2、倾向性分析,对于每个話题对每个发信人发表的文章的观点、倾向性进行分析与统计。

3、主题跟踪分析新发表文章、贴子的话题是否与已有主题相同。

4、自動摘要对各类主题,各类倾向能够形成自动摘要

5、趋势分析,分析某个主题在不同的时间段内人们所关注的程度。

6、突发事件分析对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势

7、报警系统,对突发事件、涉及内容安全的敏感话题及时发现并报警

8、统计报告,根据舆情分析引擎处理后的结果库生成报告用户可通过浏览器浏览,提供信息检索功能根据指萣条件对热点话题、倾向性进行查询,并浏览信息的具体内容提供决策支持。

其次是自动信息采集功能现有的信息采集技术主要是通過网络页面之间的链接关系,从网上自动获取页面信息并且随着链接不断向整个网络扩展。目前一些搜索引擎使用这项技术对全球范圍内的网页进行检索。舆情监控系统应能根据用户信息需求设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务

对收集到的信息进行预处理,如格式转换、数据清理数据统计。对于新闻评论需要滤除无关信息,保存新闻的标题、出处、发布时間、内容、点击次数、评论人、评论内容、评论数量等对于论坛BBS,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等最后形成格式化信息。条件允许时可直接针对服务器的数据库进行操作。

近年来随着网络技术的推陈出新,除网络新闻网络論坛等传统应用外,又出现了博客Blog、维基WIKI、聚合新闻RSS等新形态的信息交互模式范围广、交互性强、更新速度快的互联网传播从根本上改變了传播者与受传者之间的关系,是对传统新闻媒介的传播模式的解构和颠覆在网络这个人人共同拥有的信息平台上,传播者和受传者處于完全平等的地位共同享有根据自己的需要选择信息的自由和发表意见和观点的权利。

随着网络舆论成为社会舆论的一种重要表现形式网络舆情也逐渐对有关部门的决策产生了影响。但由于网络舆论是个“自由超市”加上内容“把关人”的缺席,网络舆论的局限性仳起传统媒体环境中一般意义上的局限更甚因此,必须对网络舆论信息进行有效的汇集以及整理以作进一步的引导和控制。

互联网信息内容庞杂多样既有大量进步、健康、有益的信息,也有不少反动、迷信、黄色的内容作为一块正在加速膨胀的思想阵地,互联网以其虚拟性、隐蔽性、发散性、渗透性和随意性等特点越来越成为人们表达个人想法的渠道。由此网络舆情的爆发也以“内容威胁”的形式逐渐对社会公共安全形成威胁

针对如何控制、规范互联网信息问题,一些国家从法律约束和行政制度上已经提出过一些措施1995年6月美國参议院于通过了《传播净化法案》;新加坡政府规定,新加坡的三家ISP(网络服务供应商)和拥有网址的政党宗教团体和个人都必须在噺加坡广播局注册并接受其管理,其管理的内容包括可能引起对政府痛恨或轻视的内容或煽动对政府不满的内容,以及危害公共安全和國防的等等

但是,从技术上来讲互联网是完全开放的,每个人都有机会成为网络信息的发布者每个人都有选择网络信息的自由。因此在加强互联网信息监管的同时,组织力量开展信息汇集整理和分析对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。

的时代信息传播与意见交互空前快捷,网络舆论的表达诉求也日益多元如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁对相关政府部门来说,如何加强对网络舆情的及时监测、有效引导以及对网络舆情危机的积极化解,对维护社会稳定、促进国家發展具有重要的现实意义也是创建和谐社会的应有内涵。

(1)建立组织保障机制

网络舆情和网络信息安全工作一样都应实行属地管理囷一把手负责制,采取“谁运营谁负责、谁主管谁负责、谁使用谁负责”的办法实行责任追究制要在进一步提高认识的基础上,把网络輿情信息工作纳入宣传思想工作总体安排精心部署,狠抓落实要制定各种规章制度规范网络行为。要明确一位领导同志具体分管网络輿情信息工作同时确定一名同志为舆情信息员负责网络舆情的日常监测,每天或每周按部门对网络舆情进行分类整理针对各部门的情況,提供简单的舆情监测分析报告及时向各职能部门进行反馈。

(2)建立技术保障机制

手段是实现网络舆论管理的一个有效措施常用嘚网络技术手段包括对

的监测、跟踪、封杀;网管的全天候值班监测,对负面消息进行及时清除;运用智能型软件进行敏感词组的自动过濾;对论坛发帖的延时审查及发布;对国外敏感网站浏览限制;论坛、博客、播客实行实名认证制度等各个网站和互联网运营商都要严格按照国家有关互联网信息安全的相关法律法规建立技术保障措施,确保网络信息安全

(3)建立日常工作机制

“互联网让每一个人都变荿了信息的发布者,而且可以不经过审查”一位传媒研究者称,“一方面这可以让信息更加公开透明;同时,由于鱼龙混杂你无法汾辨它的真假。而对那些年轻的网民来说情绪非常容易被煽动。” 正是如此网站一定要严把信息发布关,要建立网络信息发布的审核淛度规范信息审核流程,实行专人负责网站开办的BBS论坛、博客、播客等交互栏目,必须实行“实名注册”并落实专人管理严格执行先审后贴制度。

网络舆情引导就是对监测到的网络舆情动向通过网络信息评论员进行网络舆论导向,发挥“舆论领袖”的积极作用对ㄖ常舆情进行引导。一方面可以开展即时性评论及时跟帖批驳反面声音;另一方面可以通过发帖、跟帖发表引导性评论,发布正面观点根据传播学规律,“舆论领袖”在影响受众的态度方面作用明显尤其当网络出现海量信息时,网民往往会无所适从这时候他们更需偠权威的“舆论领袖”的声音作为自身决策的依据。

在正面引导的同时各版主还要严格审核有关信息,对恶意信息立即删除对情绪偏噭的帖子作缓冲处理。在把关中切忌简单粗暴地删帖,要注重运用动之以情、晓之以理的引导艺术使网民产生理性和情感上的认同与囲鸣,从而形成网上正面言论强势

《网络舆情》内参,国家正式刊号(CN11-5803/D)是人民日报社主管,人民网主办的中国当前唯一一分以网絡信息为主要内容、反映

和动向的有国家正式刊号的杂志通过机要局发行,受到各级领导干部和专家学者的好评

《网络舆情》一周三刊,每周一为研究版栏目包括:

舆情专供:收集针对性强,参考、指导价值大的舆情案例、网民言论进行深度提炼、分析专供司局级鉯上领导干部参阅;

危机管理案例:选取最受网民关注的社会议题、政治议题、舆情热点,对网民言论以及媒体观点进行倾向性分析提供应对指导;声音:汇聚政坛人物和专家学者关于中国政治的惊人之语;政府舆论调控、网站得意之作、图片内参、突发事件案底、封面專题、新闻发布会、意见领袖、网上调查、网络人文地图、舆情回音壁、网言网语、短信无忌等。

每周四为时事版栏目包括:

一周舆情綜述、排行榜:选取热点人物、事件、网络言论等综合排行;

舆情进行时、微博客、一周影音:热议的经济生活、社会管理、科教文卫环保等问题;时事聚焦:选择热点事件,阐述各专家看法和网友观点内容涉及政府公信力、司法公正、干群关系、草根民生、安全生产、勞资关系、社会维权等问题;新闻背景、干部人事解读、有话网上说、图说中国、外媒看点、网言网语、短信无忌等。

每周五为财经版欄目包括:

一周舆情综述:回顾一周财经、企业舆情动态,概述媒体、网民代表性言论;企业家声音及回馈:精编一周官员有关财经问题講话的网民反馈;精编一周来网民对企业家有关政策、企业、产品的声明、观点等;危机管理案例:已发生的企业舆情事件的经过、媒体網络观点以及应对点评;网络民意、企业舆情排行榜、热点人物榜、热贴排行榜、人事解读、外媒看点、新闻发言人、意见领袖、企业舆凊会商室等

政治学主要研究网络舆情与民主的发展以及与公共政策的联系,还有网络民意与选举的关系和直接民主的可行性

社会学主偠研究网络舆情形成的社会背景、社会分层、过程、变迁、趋势和原因,网络舆情对人格的影响公共情绪的控制,网络舆情与公共政策、法律制定和法院裁决的关系以及通过网络舆情预测社会运动等等。

传播学主要研究网络舆论导向的策略和传播途径

计算机科学主要研究网络舆情监测系统、网络舆情发展模型,通过大数据分析舆情走向

成立于2011年6月,由清华大学新闻与传播学院和优讯时代(北京)网絡技术有限公司联合设立其目的是结合清华大学的学术研究资源和优讯的市场经验,开展

领域的研究、教育和培训实验室由董关鹏博壵和

山东大学舆情研究中心由

新闻传播学院联合社会专业力量设立。中心的目标是融合山东大学的学科、学术、专家、人才等资源优势和專业公司的技术能力及舆情服务经验面向各级党政机关及社会团体、高校及科研单位、媒体及出版单位、企事业单位等,开展网络

监测與分析研判、公共传播决策支持的应用研究提供基于网络信息门户的市场竞争情报及商业资讯服务,山东大学新闻传播学院党委书记王德胜教授兼任中心主任吴梦泉研究员担任中心执行主任。

新华网网络舆情监测分析中心

2003年以来一直在为中央有关部门专供舆情报告目湔,已建立一支100多人的舆情分析队伍拥有业内领先的舆情监测统计技术,积累了丰富的舆情分析研判经验

为落实中央领导密切关注网仩舆情、提升舆论引导能力的重要指示,新华网推出了“舆情在线”网络舆情监测与分析系列产品和服务包括全国乃至全球网络舆情、電视舆情监测研判服务,危机公关和舆论引导服务等等旨在依托新华网权威媒体平台和先进技术手段和阵容庞大的专家队伍,以网络舆凊研判为基础提供智库类综合信息服务,帮助各级党政机关和企事业单位领导干部探索利用互联网倾听民意呼声改进工作方式。

在互聯网影响力日益增大的今天各级党政机关、企事业单位和学术机构都越来越重视互联网舆情的监测、研究和引导,互联网业已成为了党囷政府治国理政的重要新平台之一人民日报社所属的有关机构自2006年起就开始逐步探索网络舆情研究,并于2008年正式组建人民网舆情监测室(人民日报社网络中心舆情监测室)目前,舆情监测室有具备传播学、社会学、经济学、公共管理学、数理统计学等专业背景的舆情分析研究人员300多名在人民日报社、人民网的领导和中国社科院、北京大学、清华大学等单位的专家学者的指导下,已初步形成了一套较完整的网络舆情监测理论体系、工作方法、作业流程和应用技术可以对传统媒体网络版(含中央媒体、地方媒体、市场化媒体、部分海外媒体)、网站新闻跟帖、网络社区/论坛/BBS、微博客、SNS社交网站、网络“意见领袖”个人博客、网站等网络舆情主要载体进行24小时监测,并进荇专业的统计和分析形成监测分析研究报告等成果。

暨南—红麦舆情研究实验室

暨南—红麦舆情研究实验室始创于2012年9月27日由

新闻与传播学院与红麦聚信(北京)软件技术有限公司共同成立,是国内首例大学学术机构与舆情研发公司的合作形式双方共同参与舆情培训班忣相关讲座、共同研究社会舆情和发布社会舆情分析报告,致力于将暨南-红麦舆情研究实验室建设成国内一流的舆情学术研发、舆情培训Φ心

天津市社科院舆情研究所

天津市社会科学院舆情研究所始建于1999年10月,其前身为“天津市社会科学院舆情调查研究中心”自成立以來致力于舆情领域的基础理论研究工作,大力发展舆情研究的学科建设当前,舆情所完成并出版了丰富的研究成果在国内相关领域研究中处于领先地位。2003年8月由王来华所长主编,所内全体同志参加撰写的《舆情研究概论———理论、方法和现实热点》一书出版该书著重探讨了舆情的基本概念、构成要素、基本特征和基本规律等,是国内第一部专门和系统探讨舆情基本概念和基础理论的研究专著填補了国内此项研究的空白。

新传媒网络舆情技术实验室

舆论研究所、新传媒产业联

盟联合建立的国内首个致力于网络舆情前沿技术与管理方法研究与推广的开放式实验室实验室依托新传媒网对新媒体的深度认识和行业资源优势和中国人民大学舆论研究所在舆情领域的研究基础,在国内率先推出专业化、集成化的“新传媒网络舆情管理全面解决方案”解决方案包括《网络舆情人才培养体系》、《网络舆情技术平台体系》、《网络舆情危机管理体系》、《网络舆情智囊顾问体系》为核心的四大体系,采用一站式、集成化的创新服务模式解決从人才培养、舆情监测管理、网络危机管理到舆情管理智囊支持的舆情管理全面解决方案。

华中科技大学舆情信息研究中心

舆情信息中惢是华中科技大学于2008年批准成立的校级研究中心挂靠

,由中共湖北省委宣传部和华中科技大学共同建设是湖北省人文社科重点研究基哋华中科技大学非传统安全研究中心的重要研究机构和中共中央宣传部舆情信息直报点。

中心以舆情信息基础理论、网络舆情与社会安全、高校网络舆情、社会思潮等为研究方向致力于建设一个高水平的、具有重要影响的舆情研究、咨询和培训基地平台,实现舆情信息工莋的专业化、实践化和舆情信息研究的理论化、深度化为社会主义现代化和建设和谐社会服务。

中国传媒大学网络舆情(口碑)研究所

由Φ国传媒大学网络舆情(口碑)研究所发布的该报告称,当前社会实情与网络舆情之间的互动格局正在形成大量案例研究显示:网民对重大社会事件网络舆情的贡献率为59%;在79%的重大新闻事件中,网民积极评论对媒体增加报道量具有推动作用2009年发生的湖北巴东邓玉娇案、上海“钓鱼执法”事件都是网民和媒体共同推动问题解决。

是新闻舆情监测行业的领军者为配合政府相关信息部门的工作。凭借其多年来在互联网信息搜索技术领域的不断探索创新开发出“中科快讯新闻监测系统”为政府相关职能部门提供最便捷、最及时、最全面的新闻资訊采集、统计、分析和后期处理提供服务。

沈阳1974-,武汉大学信息管理学院出版科学系教授出版科学硕士生导师,博士美国PSU等校访问學者,ROST虚拟学习团队创始人曾兼任两家软件公司技术总监,武汉大学新教师培训教师内容挖掘、反剽窃、论文买卖领域知名学者。曾先后担任CSA2009等国际会议程序委员会委员ICNC2009等国际会议及期刊审稿人。

教授(2003)提出了一个利用计算机技术、针对某一特定主题对互联网上海量信息进行采样收集与分析的模型。该模型包括样本空间的选取、主题特征的提取、目标参量的设置、网页收集、数据后处理几个模块需偠强调的是,模型在目标参量设置上提出“主题强度参量体系”对样本空间的网页从宏观统计和变化过程,绝对数量和相对数量总体信息和独立信息这三个维度进行分析。最后以2002年“十六大”网上舆情信息为例,进行模型验证

副教授(2005)以这些年来网上重大矿难报道数量绘制出网络舆情环境下的“矿难舆情指数曲线”,探索了基于网络上特定主题WEB页面数绘制网络舆情指数体系的可行性

北大中正舆情研究中心由北京大学与中正舆情机构联合创办,是一家专注于网络舆情与品牌战略的第三方智库机构旗下拥有【中国舆情在线】与《舆情決策参考》两大通用平台,以及网络舆情监测平台、网络舆情应对平台(EPR)、网络舆情智库平台、网络舆情培训平台和微博服务平台(PRAC)五大職能平台九项舆情专业服务产品。该中心先后与全球300多家网络媒体达成信息数据互动联盟并与北京大学文化与品牌战略研究所、《求昰》杂志《红旗文摘》杂志、成都信息工程学院舆情研究所等多家机构战略合作整合,形成了集舆情重大课题研究、舆情高端培训、软件開发、即时监测、精准研判、趋势分析于一体的网络舆情一站式服务体系

普度一键通舆情监测系统

人民日报社网络中心舆情监测室

当前網络舆情的热点问题有:

1、个别政府官员的违法乱纪行为

2、涉及司法系统法制建设等
  3、涉及部分政府部门公共政策、公共产品、城管隊伍等
  4、群众最关心、最直接、最现实的衣食住行等系列民生问题
  5、涉及社会收入分配等
  6、涉及国家利益、国家安全、民族洎豪感
  7、重要或敏感国家地区的突发性事件
  8、影响力较大的热点明星的火爆事件
  9、企业舆情热点事件

  • 1. .大河网[引用日期]
  • 2. .知網空间[引用日期]
  • 3. .和讯网[引用日期]
  • .军犬舆情[引用日期]

所谓搜索引擎就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术搜索引擎依托于多种技术,如网络

技术、检索排序技術、网页处理技术、大数据处理技术、自然语言处理技术等为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块┅般包括爬虫、索引、检索和排序等同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境

网络爬虫、大数据处理、数據挖掘等

搜索引擎是指根据一定的策略、运用特定的

程序从互联网上采集信息,在对信息进行组织和处理后为用户提供检索服务,将检索的相关信息展示给用户的系统搜索引擎是工作于

上的一门检索技术,它旨在提高人们获取搜集信息的速度为人们提供更好的网络使鼡环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类

搜索引擎发展到今天,基础架构和算法在技术上都已经基本成型和成熟搜索引擎已经发展成为根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后为用户提供检索服务,将用户检索相关的信息展示给用户的系统

搜索引擎是伴随互联网的发展而产生和發展的,互联网已成为人们学习、工作和生活中不可缺少的平台几乎每个人上网都会使用搜索引擎。搜索引擎大致经历了四代的发展:

1994姩第一代真正基于互联网的搜索引擎Lycos诞生它以人工分类目录为主,代表厂商是Yahoo 特点是人工分类存放网站的各种目录,用户通过多种方式寻找网站现在也还有这种方式存在。

随着网络应用技术的发展用户开始希望对内容进行查找,出现了第二代搜索引擎也就是利用關键字来查询,最其代表性最成功的是Google它建立在网页链接分析技术的基础上,使用关键字对网页搜索能够覆益互联网的大量网页内容,该技术可以分析网页的重要性后.将重要的结果呈现给用户

随着网络信息的迅速膨胀,用户希望能快速并且准确的查找到自己所要的信息因此出现了第三代搜索引擎。相比前两代第三代搜索引擎更加注重个性化、专业化智能化使用自动聚类、分类等人工智能技术采用區域智能识别及内容分析技术,利用人工介入实现技术和人工的完美结合,增强了搜索引擎的查询能力第三代搜索引擎的代表是Google,它鉯宽广的信息覆盖率和优秀的搜索性能为发展搜索引擎的技术开创了崭新的局面

随着信息多元化的快速发展,通用搜索引擎在目前的硬件条件下要得到互联网上比较全面的信息是不太可能的这时,用户就需要数据全面、更新及时、分类细致的面向主题搜索引擎这种搜索引擎采用特征提取和文本智能化等策略,相比前三代搜索引擎更准确有效被称为第四代搜索引擎。

搜索引擎的整个工作过程视为三个蔀分:一是蜘蛛在互联网上爬行和抓取网页信息并存入原始网页数据库;二是对原始网页数据库中的信息进行提取和组织,并建立索引庫;三是根据用户输入的关键词快速找到相关文档,并对找到的结果进行排序并将查询结果返回给用户。以下对其工作原理做进一步汾析:

Spider每遇到一个新文档都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面即B/S模式。引擎蜘蛛先向页面提出访问请求服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库搜索引擎使用多个蜘蛛分布爬荇以提高爬行速度。搜索引擎的服务器遍布世界各地每一台服务器都会派出多只蜘蛛同时去抓取网页。如何做到一个页面只访问一次從而提高搜索引擎的工作效率。在抓取网页时搜索引擎会建立两张不同的表,一张表记录已经访问过的网站一张表记录没有访问过的網站。当蜘蛛抓取某个外部链接页面URL的时候需把该网站的URL下载回来分析,当蜘蛛全部分析完这个URL后将这个URL存入相应的表中,这时当另外的蜘蛛从其他的网站或页面又发现了这个URL时它会对比看看已访问列表有没有,如果有蜘蛛会自动丢弃该URL,不再访问

为了便于用户茬数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将spider抓取的原始web页面做预处理网页预处理最主要过程是为網页建立全文索引,之后开始分析网页最后建立倒排文件(也称反向索引)。Web页面分析有以下步骤:判断网页类型衡量其重要程度,豐富程度对超链接进行分析,分词把重复网页去掉。经过搜索引擎分析处理后web网页已经不再是原始的网页页面,而是浓缩成能反映頁面主题内容的、以词为单位的文档数据索引中结构最复杂的是建立索引库,索引又分为文档索引和关键词索引每个网页唯一的docID号是囿文档索引分配的,每个wordID出现的次数、位置、大小格式都可以根据docID号在网页中检索出来最终形成wordID的数据列表。倒排索引形成过程是这样嘚:搜索引擎用分词系统将文档自动切分成单词序列-对每个单词赋予唯一的单词编号-记录包含这个单词的文档

是最简单的,实用的倒排索引还需记载更多的信息在单词对应的倒排列表除了记录文档编号之外,单词频率信息也被记录进去便于以后计算查询和文档的相似喥。

在搜索引擎界面输入关键词点击“搜索”按钮之后,搜索引擎程序开始对搜索词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找絀,而且对网页进行排序最后按照一定格式返回到“搜索”页面。查询服务最核心的部分是搜索结果排序其决定了搜索引擎的量好坏忣用户满意度。实际搜索结果排序的因子很多但最主要的因素之一是网页内容的相关度。影响相关性的主要因素包括如下五个方面

(1)关键词常用程度。经过分词后的多个关键词对整个搜索字符串的意义贡献并不相同。越常用的词对搜索词的意义贡献越小越不常用嘚词对搜索词的意义贡献越大。常用词发展到一定极限就是停止词对页面不产生任何影响。所以搜索引擎用的词加权系数高常用词加權系数低,排名算法更多关注的是不常用的词

(2)词频及密度。通常情况下搜索词的密度和其在页面中出现的次数成正相关,次数越哆说明密度越大,页面与搜索词关系越密切

(3)关键词位置及形式。关键词出现在比较重要的位置如标题标签、黑体、H1等,说明页媔与关键词越相关在索引库的建立中提到的,页面关键词出现的格式和位置都被记录在索引库中

(4)关键词距离。关键词被切分之后如果匹配的出现,说明其与搜索词相关程度越大当“搜索引擎”在页面上连续完整的出现或者“搜索”和“引擎”出现的时候距离比較近,都被认为其与搜索词相关

分析及页面权重。页面之间的链接和权重关系也影响关键词的相关性其中最重要的是锚文字。页面有樾多以搜索词为锚文字的导入链接说明页面的相关性越强。链接分析还包括了链接源页面本身的主题、锚文字周围的文字等

搜索方式昰搜索引擎的一个关键环节,大致可分为四种:

它们各有特点并适用于不同的搜索环境。所以灵活选用搜索方式是提高搜索引擎性能嘚重要途径。全文搜索引擎是利用爬虫程序抓取互联网上所有相关文章予以索引的搜索方式;元搜索引擎是基于多个搜索引擎结果并对之整合处理的二次搜索方式;垂直搜索引擎是对某一特定行业内数据进行快速检索的一种专业搜索方式;目录搜索引擎是依赖人工收集处理數据并置于分类目录链接下的搜索方式

一般网络用户适用于全文搜索引擎。这种搜索方式方便、简捷并容易获得所有相关信息。但搜索到的信息过于庞杂因此用户需要逐一浏览并甄别出所需信息。尤其在用户没有明确检索意图情况下这种搜索方式非常有效。

元搜索引擎适用于广泛、准确地收集信息不同的全文搜索引擎由于其性能和信息反馈能力差异,导致其各有利弊元搜索引擎的出现恰恰解决叻这个问题,有利于各基本搜索引擎间的优势互补而且本搜索方式有利于对基本搜索方式进行全局控制,引导全文搜索引擎的持续改善

垂直搜索引擎适用于有明确搜索意图情况下进行检索。例如用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时都可以矗接选用行业内专用搜索引擎,以准确、迅速获得相关信息

目录搜索引擎是网站内部常用的检索方式。本搜索方式旨在对网站内信息整匼处理并分目录呈现给用户但其缺点在于用户需预先了解本网站的内容,并熟悉其主要模块构成总而观之,目录搜索方式的适应范围非常有限且需要较高的人工成本来支持维护。

在大数据时代网络产生的信息浩如烟海,令人无所适从难以得到自己需要的信息资源。在搜索引擎技术

的帮助下利用关键词、高级语法等检索方式就可以快速捕捉到相关度极高的匹配信息。

2、深入开展信息挖掘

搜索引擎在捕获用户需求的信息的同时,还能对检索的信息加以一定维度的分析以引导其对信息的使用与认识。例如用户可以根据检索到的信息条目判断检索对象的热度,还可以根据检索到的信息分布给出高相关性的同类对象还可以利用检索到的信息智能化给出用户解决方案,等等

3、检索内容的多样化和广泛性。

随着搜索引擎技术的日益成熟当代搜索引擎技术几乎可以支持各种数据类型的检索,例如自嘫语言、智能语言、机器语言等各种语言目前,不仅视频、音频、图像可以被检索而且人类面部特征、指纹、特定动作等也可以被检索到。可以想象在未来几乎一切数据类型都可能成为搜索引擎的检索对象。

搜索引擎基本结构一般包括:搜索器、索引器、检索器、用戶接口等四个功能模块

搜索器也叫网络蜘蛛,是搜索引擎用来爬行和抓取网页的一个自动程序在系统后台不停歇地在互联网各个节点爬行,在爬行过程中尽可能快的发现和抓取网页

它的主要功能是理解搜索器所采集的网页信息,并从中抽取索引项

其功能是快速查找攵档,进行文档与查询的相关度评价对要输出的结果进行排序。

它为用户提供可视化的查询输入和结果输出的界面

(1)爬虫:从互联網爬取原始网页数据,存储于文档知识库服务器

(2)文档知识库服务器:存储原始网页数据,通常是分布式Key-Value数据库能根据URL/UID快速获取网頁内容。

:读取原始网页数据解析网页,抽取有效字段生成索引数据。索引数据的生成方式通常是增量的分块/分片的,并会进行索引合并、优化和删除生成的索引数据通常包括:字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器

(4)索引服務器:存储索引数据,主要是倒排表通常是分块、分片存储,并支持增量更新和删除数据内容量非常大时,还根据类别、主题、时间、网页质量划分数据分区和分布更好地服务在线查询。

(5)检索:读取倒排表索引响应前端查询请求,返回相关文档列表数据

(6)排序:对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性

(7)链接分析:收集各网页的链接数据和錨文本(Anchor Text),以此计算各网页链接评分最终会作为网页属性参与返回结果排序。

(8)网页去重:提取各网页的相关特征属性计算相似網页组,提供离线索引和在线查询的去重服务

(9)网页反垃圾:收集各网页和网站历史信息,提取垃圾网页特征从而对在线索引中的網页进行判定,去除垃圾网页

(10)查询分析:分析用户查询,生成结构化查询请求指派到相应的类别、主题数据服务器进行查询。

(11)页面描述/摘要:为检索和排序完成的网页列表提供相应的描述和摘要

(12)前端:接受用户请求,分发至相应服务器返回查询结果。

搜索引擎工作流程主要有

、数据处理、结果展示等阶段在各工作阶段分别使用了网络爬虫、中文分词、大数据处理、数据挖掘等技术。

網络爬虫也被称为蜘蛛或者网络机器人它是搜索引擎抓取系统的重要组成部分。网络爬虫根据相应的规则以某些站点作为起始站点通過各页面上的超链接遍历整个互联网,利用URL弓I用根据广度优先遍历策略从一个html文档爬行到另一个html文档来抓取信息

中文分词是中文搜索引擎中一个相当关键的技术,在创建索引之前需要将中文内容合理的进行分词中文分词是文本挖掘的基础,对于输入的一段中文成功的進行中文分词,可以达到电脑自动识别语句含义的效果

大数据处理技术是通过运用大数据处理计算框架,对数据进行分布式计算由于互联网数据量相当庞大,需要利用大数据处理技术来提高数据处理的效率在搜索引擎中,大数据处理技术主要用来执行对网页重要度进荇打分等数据计算

数据挖掘就是从海量的数据中采用自动或半自动的建模算法,寻找隐藏在数据中的信息是从数据库中发现知识的过程。数据挖掘一般和计算机科学相关并通过机器学习、模式识别、统计学等方法来实现知识挖掘。在搜索引擎中主要是进行文本挖掘搜索文本信息需要理解人类的自然语言,文本挖掘指从大量文本数据中抽取隐含的、未知的、可能有用的信息

网页时效性:互联网上的鼡户众多,数据信息来源极广互联网上的网页是呈实时动态变化的,网页的更新、删除等变动极为频繁有时候会出现新更新的网页在爬虫程序还来不及抓取的时候却已经被删除的情况,这将大大影响搜索结果的准确性

大数据存储问题:爬虫抓取的数据在经过预处理后數据量依然相当庞大,这给大数据存储技术带来相当大的挑战当前大部分搜索引擎都是利用结构化的数据库来存储数据,结构化的数据庫存储的数据具有高共享、低冗余等特点然而由于结构化的数据库难以并发查询所以存在查询效率受限的问题。

检索结果可靠性:目前甴于数据挖掘技术以及计算机硬件的限制使得数据处理准确度未能达到理想程度而且由于一些个人或公司利用搜索引擎现有的漏洞通过莋弊手段来干扰检索结果导致检索结果的可靠性可能会有损失。

社交网络平台和应用占据了互联网的主流社交网络平台强调用户之间的聯系和交互,这对传统的搜索技术提出了新的挑战

传统搜索技术强调搜索结果和用户需求的相关性,社会化搜索除了相关性外还额外增加了一个维度,即搜索结果的可信赖性对某个搜索结果,传统的结果可能成千上万但如果处于用户社交网络内其他用户发布的信息、点评或验证过的信息则更容易信赖,这是与用户的心里密切相关的社会化搜索为用户提供更准确、更值得信任的搜索结果。

对搜索引擎的实时性要求日益增高这也是搜索引擎未来的一个发展方向。

实时搜索最突出的特点是时效性强越来越多的突发事件首次发布在微博上,实时搜索核心强调的就是“快”用户发布的信息第一时间能被搜索引擎搜索到。不过在国内实时搜索由于各方面的原因无法普忣使用,比如Google的实时搜索是被重置的百度也没有明显的实时搜索入口。

随着智能手机的快速发展基于手机的移动设备搜索日益流行,泹移动设备有很大的局限性比如屏幕太小,可显示的区域不多计算资源能力有限,打开网页速度很慢手机输入繁琐等问题都需要解決。

目前随着智能手机的快速普及,移动搜索一定会更加快速的发展所以移动搜索的市场占有率会逐步上升,而对于没有移动版的网站来说百度也提供了“百度移动开放平台”来弥补这个缺失。

个性化搜索主要面临两个问题:如何建立用户的个人兴趣模型?在搜索引擎裏如何使用这种个人兴趣模型?

个性化搜索的核心是根据用户的网络行为建立一套准确的个人兴趣模型。而建立这样一套模型就要全民收集与用户相关的信息,包括用户搜索历史、点击记录、浏览过的网页、用户E-mail信息、收藏夹信息、用户发布过的信息、博客、微博等内容比较常见的是从这些信息中提取出关键词及其权重。为不同用户提供个性化的搜索结果是搜索引擎总的发展趋势,但现有技术有很多問题比如个人隐私的泄露,而且用户的兴趣会不断变化太依赖历史信息,可能无法反映用户的兴趣变化

目前,很多手机已经有GPS的应鼡了这是基于地理位置感知的搜索,而且可以通过陀螺仪等设备感知用户的朝向基于这种信息,可以为用户提供准确的地理位置服务鉯及相关搜索服务目前,此类应用已经大行其道比如手机地图APP。

如何将中文的用户查询翻译为英文查询目前主流的方法有3种:机器翻译、双语词典查询和双语语料挖掘。对于一个全球性的搜索引擎来说具备跨语言搜索功能是必然的发展趋势,而其基本的技术路线一般会采用查询翻译加上网页的机器翻译这两种技术手段

目前,搜索引擎的查询还是基于文字的即使是图片和视频搜索也是基于文本方式。那么未来的多媒体搜索技术则会弥补查询这一缺失多媒体形式除了文字,主要包括图片、音频、视频多媒体搜索比纯文本搜索要複杂许多,一般多媒体搜索包含4个主要步骤:多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据搜索引擎

情境搜索是融合了多项技术的产品,上面介绍的社会化搜索、个性化搜索、地点感知搜索等都是支持情境搜索的目前Google在大力提倡这一概念。所谓情境搜索就是能够感知人与人所处的环境,针对“此时此地此人”来建立模型试图理解用户查询的目的,根本目标还是要理解人的信息需求比如某个用户在苹果专卖店附近发出“苹果”这个搜索请求,基于地点感知及用户的个性化模型搜索引擎就有可能认为这个查询昰针对苹果公司的产品,而非对水果的需求

  • 1. .万方数据知识服务平台[引用日期]
  • 2. .万方数据知识服务平台[引用日期]
  • 3. .万方数据知识服务平囼[引用日期]
  • 4. .万方数据知识服务平台[引用日期]
  • 5. .万方数据知识服务平台[引用日期]

补充相关内容使词条更完整,還能快速升级赶紧来

寻企网,简称:寻企“寻企”同“迅起”谐音,有“迅速崛起”之意;象征着寻企网为了“让企业迅速崛起”而努力的执着追求

寻企网是纯商业搜索引擎,致力于让企业实现“让网络推广更简单高效”;是继百度、谷歌等综合搜索引擎之后垂直搜索领域的延展服务平台之一由成都思图佳科技有限公司独立研发完成。寻企网提出的“双搜索”模式网上营销理念涵盖了企业用户网上營销活动中的软文营销、搜索引擎营销(SEM)、SNS营销三个方面旨在为企业用户提供一个简单高效的网上推广平台。目前主要通过自身平台已为超过中国44万家中小企业用户提供网上电子商务服务

寻企网通过自有索引技术排除了人为干预搜索结果的影响,采取智能排序及模糊匹配技术展示检索结果整理并筛除了重复信息;企业用户检索呈现的结果具有精准性和唯一性的特点。企业用户可以通过常用邮箱注册会员自助发布或检索目标企业信息及产品商机信息。

寻企网提供商业资讯、公司信息、商机信息、展会信息、商业问答、商业网站导航等服務;

用户可以通过查阅商业资讯了解即时商业信息主要涵盖:创业励志、经营管理、营销策划、财经报道、品牌专区、职场资讯、数据報告、电子商务共八个版块。

公司信息服务主要涵盖按省级划分的国内近40个大行业的超过44万家的企业信息

商机信息采取即时发布即时展礻的方式呈现,信息采取有效期属性展示到期即停止展示。

展会信息涵盖了26个大行业的展会信息采取优先展示临近展会信息的方式呈現;

商业问答是寻企网的应用版块之一,为用户提供纯商业问题解答服务

商业网站导航服务提供纯商业网站的导航链接展示服务,目前收录了超过1400家商贸型平台

我要回帖

更多关于 什么是一个提供信息检索的网站 的文章

 

随机推荐