首页 > 股票资讯 正文

大数据:作为方法论的追踪和质疑 上海证券交易所成立时间

时间:2021-03-10 07:24:10作者:佚名

赵曙光,南京大学新闻与传播学院教授。

吴璇,南京大学(北京)紫金传媒研究所研究员。

本论文是江苏省社会科学基金基地专项“传统媒体融合传播效果大数据评估研究”(项目编号::16JJD002)。

近年来,“大数据”成为学术界研究的热点。2018年,中国知网收录的中文论文中,有“大数据”的论文数量比上年增长20%。但是,什么是“大数据方法”,如何理解,或者说是否存在?鉴于大数据一词在学术研究中的影响力越来越大,澄清这些问题越来越有必要。只有搞清楚“大数据方法”的本质和“大数据方法”在传播领域的含义,了解“大数据方法”在国内外内涵和使用上的异同,才能避免概念内涵和外延模糊造成的误用。本研究围绕“大数据方法”梳理了国内外传播学领域的相关文献,分析了国内学术研究中“大数据方法”的诸多含义,并通过与国外学术研究的比较,探讨了是否存在“大数据方法”。

一个

文献综述

虽然学术界对“大数据”一词的最早起源时间有不同的看法,但大多数学者接受并认识到,“大数据”在2011年前后开始受到广泛关注(甘多米&海德尔,2015)。国外学术界对“大数据”进行了广泛的讨论,著名的信息技术研究分析公司Gartner对大数据的定义是按量、速度和种类(Gartner,2012)。一般来说,高德纳将大数据定义为大规模、高速多样化的信息收集,需要以有效和创新的方式进行处理,以获得更强的洞察力、决策能力和过程自动化。

在此基础上,学者和机构不断补充和增加更多维度,如价值(Oracle,2013;Gogia等人,2012年)和准确性(White,2012年)。还有其他被广泛接受的定义。比如马尼卡等人认为,大数据是难以用普通数据处理软件捕捉、存储、管理和分析的大规模数据集(Manyika等,2011:1);博伊德和克劳福德将大数据定义为一种文化、技术和学术现象。根据这些定义,一些研究对它们进行了不同的分类。德·毛罗等人认为,大数据通常从四个不同的角度来定义,即信息、技术、方法和影响。

目前,日新月异的计算机技术使得处理和分析海量数据成为可能。大数据的应用已经突破了一个特定的领域,渗透到人们日常生活的方方面面。大数据日益增长的重要性也导致了对它的广泛研究和讨论。

在国内通信研究领域,“大数据方法”一词已经出现在很多文献中。有研究指出,目前应该有大数据思维:大数据思维只注重关联性而不是因果性,是一种“思维革命”;此外,大数据使样本变得“整体”和“全部”,避免了传统随机抽样方法的不准确性;随着大数据时代的到来,科研的重点已经从“鸡犬不宁”的小问题上升到整个学科发展的宏观趋势,“更好的数据算法和有效的数据处理规则”的重要性将超越理论(于国铭,2014: 45)。

仔细考虑一个问题

本研究将全面梳理和揭示我国通信领域“大数据方法”的使用现状,并对国内外大数据方法的应用进行比较。同时,将探讨“大数据方法”概念的合理性,促进对大数据方法的科学理解,减少对这一概念的误用以及由此产生的理论和实践上的差异。

因此,本文主要探讨以下三个研究问题:“大数据方法”概念的内涵和外延是什么?“大数据方法”是一种有效的研究方法吗?“大数据方法”在研究方法上有创新吗?

研究技术

本文采用扎根理论作为主要研究方法。本文以中国知网收集的北京大学核心期刊、中国社会科学引文索引(CSSCI)和中国社会科学院中国人文社会科学核心期刊的新闻传播论文为基础,以“大数据方法”和“大数据方法”为关键词,选取所有时间段内任意关键词的文章。本研究将筛选后剩余的79篇论文按照上下文进行开放编码,在明确“大数据方法”一词在这些文献中的含义后对其进行分类。为了保证分析结论的有效性,两个编码员参与了数据分析。编码员先预编码,从24篇论文中随机抽取30%由两个编码员独立编码,对比编码结果,吻合度为64%。基于两个数据的分析结果,编码员对不同的编码进行了解释、讨论和协商,最终达成了统一的意见。形成统一意见后,两位编码员分别对剩余的论文进行编码,其间编码员采用了不断比较的方法。最终结果表明,卡伯系数为0.81,一致度为89.69%,支持数据结论的可靠性。

为了解国外传播文献中对“大数据方法”的研究,本文选取“大数据方法”、“大数据方法论”、“大数据方法”和“大数据方法”作为关键词。高级搜索功能用于在不限制发表时间、语言、文献类别和文献中关键词出现区域的前提下,在科学之网数据库中进行搜索。但结果显示,在传播学范畴下,只有两篇文献包含这些关键词。将搜索范围从传播学扩大到整个社会科学领域后,包含这些关键词的论文只有三篇。这种情况意味着中外相关文献很难进行对比分析,更合理的假设是国外研究中可能不存在“大数据方法”的概念。

为了进一步验证国外学术界对大数据的主流研究中是否存在“大数据方法”,本研究进一步扩大了文献检索的范围,将关键词限定为“大数据”,并将检索范围扩展到所有的科学网(Web of Science)数据库,然后筛选出所有对大数据影响较大的文献,并对其主要论题进行分析总结。检索结果显示,2009年之前,大数据研究论文数量非常有限,但之后呈现出明显的持续增长。因此,本文确定检索时间范围为2009-2018年,共21347篇论文。为了了解这些大数据论文的主题,本文利用数据分析软件Matlab抓取关键词并分析其出现频率。考虑到关键词的代表性,选取出现频率最高的前20个词,筛选出一个或多个关键词的论文(关键词出现频率和共现矩阵见图1),并对论文进行深入的全文分析(具体抽样过程见图2)。中英文数据采集和分析的总体流程图见图3。

iv

传播学领域对“大数据方法”的五点理解

根据国内传播学领域的论文选编内容分析,“大数据方法”一词呈现出五种不同的理解,其概念的内涵和外延相当模糊,没有形成统一的定义和共识。大数据方法是指:大数据、大数据技术、定量研究方法、新的研究范式和数据挖掘分析。

(1)将“大数据方法”等同于大数据

《谈大数据在图书出版中的应用》认为“大数据作为一种方法论,在选题策划的诸多方面得到了应用,在信息收集、选题设计、征集等方面出现了诸多创新”(孙孝敏,2017: 54)。《中国新闻传播学大数据研究综述》也谈到“大数据仍然是传播学研究的一种研究方法。将大数据方法应用于社会舆情分析,利用大数据价值挖掘和分析技术分析当前中国社会舆情的结构特征”(王霞,2017: 19)。显然,这两篇文章已经明确指出,“大数据”等同于“大数据方法”。

但值得注意的是,上述研究在后续讨论中赋予了“大数据方法”另一层含义。《谈大数据在图书出版中的应用》将大数据定义为一种方法,然后谈大数据方法在实际工作中的具体应用,如“在信息收集方面,以选题方向为基础,充分发挥大数据挖掘等技术优势,全面、快速、准确地收集选题关键信息...在选题的设计和塑造上,舆情分析中数据挖掘的技术手段可以对选题的社会影响做出适当的预测;语义网络图的技术手段可以比较所选主题与相似主题的优劣”(孙孝敏,2017: 54)。无论是因为措辞不准确还是对概念理解模糊,虽然这类文章在文字上明确将“大数据方法”等同于“大数据”,但总体来说,全文呈现出各种情况。

(2)将“大数据方法”理解为一种具体的技术手段

《从一个地方到另一个地方的改变:坚守美联社——评杰瑞·施瓦茨《美联社新闻报道手册》,其中认为“如今很多媒体开始利用大数据处理海量信息,从而可以通过非人工的技术手段呈现有价值的新闻信息,甚至可以用机器人代替专业记者进行新闻写作”(张,2016: 86)。在这里,“大数据方法”主要体现在处理信息、呈现信息甚至撰写新闻的各种技术中。可以说,作者想表达的“大数据方法”更侧重于技术手段。同样,在《两会报道大数据应用的趋势和类型》一文中,也有大数据技术在新华社两会报道中得到广泛应用的说法,比如某报道方法主要是“根据大数据方法从社交媒体上提取的关键词解读中国军费增长情况”(何军浩,林沛,2014: 40)。

(3)将“大数据方法”定义为定量研究方法之一

大数据在政府公共形象建设中的应用将大数据方法与文献分析、归纳总结、演绎分析、案例分析等定性研究方法进行了比较,认为大数据方法的出现可以改变定性研究方法主导政府公共形象研究的现状,“增加定量研究方法的比重”,使这类研究“更加可靠可信,有助于提高研究结果的科学性”(李文卿,2017: 105)。《关于大数据背景下舆情调查方法的思考》明确将大数据方法与传统量化调查方法并列,并详细比较了两者在数据收集上的异同,说明笔者认同“大数据方法”属于量化研究方法(刘兵,2018)。

(4)将“大数据方法”提升到抽象范式层面

这种研究认为“大数据方法”是一种全新的、开拓性的、可敬的研究范式。《2014年中国新媒体传播研究综述》认为,“大数据方法”堪称“继实验科学、理论科学和计算科学之后的第四种科学研究模式”,作为“从复杂现象中看到本质”的有用工具,不仅适用于科学研究,而且广泛应用于各行各业(傅,2015: 36)。

在这类研究中,“大数据方法”并不是指数据本身,或者与大数据相关的技术,或者某种研究调查方法,而是倾向于被定义为一个一般的、高度抽象的概念,即“研究范式”。在这种定义下,“大数据方法”并不涉及特定层面的数据挖掘和分析活动及相关技术手段,而是作为与大数据相关的各种研究行为的集合而存在。

(5)“大数据方法”是指数据挖掘、收集或(和)分析的行为

与以往的研究不同,这类研究将“大数据方法”定义为处理大数据的各种行为的概括。比如《媒体与媒体的互动机制》讲的是“利用大数据方法分析这些信息,建立用户需求数据库……提供个性化的信息内容和精细化的服务”(戴海波,杨辉,2018: 53)。“大数据法”是指一种数据分析方法。在一些研究中,“大数据方法”更倾向于数据挖掘方法。与其他种类的研究相比,这类研究在所有入选论文中所占比例相对较高,强调“大数据方法”作为一种具体行为的本质。

“大数据方法”:一个有标签的学术概念

通过分析国际大数据的研究成果,发现出现率最高的20个关键词集中在以下研究课题:(1)算法层面的分析方法;(2)大数据分布式系统基础设施;(3)大数据分析的一般参考;(4)以上三者之外的其他零散研究:如数据科学、社交媒体、Twitter物联网、物联网、隐私等。无论属于哪个学科,这些研究的关键词都是具体的或者抽象的,但很明显都是指的和表达的很清楚,都是以大数据为研究对象,而不是把大数据定义为一种研究方法,或者说没有“大数据方法”这种模糊的概念。虽然“大数据方法”一词在国内学术界越来越流行,但其核心定义和要素在国内传播学研究中尚未明确界定,传播学研究中对“大数据方法”的复杂解读也证实了这一观点。

值得注意的是,通过对关键词和高被引率论文的梳理,虽然在国际上关于大数据的学术研究中并没有明确提到“大数据方法”的概念,但对“大数据分析方法”及其相关技术的探讨却比较深入。在科学网上,有50篇论文包含了全部的“大数据”,引用率超过200。将这些高被引率的论文逐一梳理,发现这些研究更多的是与分析大数据的概念和方法有关。包括极限学习机、深度学习、最近邻算法、块坐标下降法、张量分解、网络理论和卷积网络。

“极限学习机”是黄光斌教授等人于2006年提出的。它的计算速度远远快于其他前馈神经网络(黄,朱& Siew,2006),在解决回归和分类问题方面具有优势。诚然,“极限学习机”也有一些需要改进的地方,如隐层节点的选择和抵抗数据噪声的能力(黄,朱& Siew,2011).

“深度学习”是杰弗里·埃佛勒斯·辛顿等人在2006年提出的。“深度学习”方法广泛应用于语音识别和图形识别(乐村,本吉奥&辛顿,2015),在一些应用场景中,隐藏层数可达152层(何,张,任&孙,2016)。“深度学习”的缺陷之一是神经网络的训练时间相对较长,但当神经网络训练好之后,“深度学习”的测试时间相对较短(Kamilaris & amp;Prenafeta-boldú,2018)。

“最近邻算法”是罗宾·西布森在1973年提出的。其基本思想是利用空间的距离对数据进行分类,同一类别的数据可以用该类别的代表数据来表示(Sibson,1973)。它最大的优点在于算法简单,缺点在于对计算机内存要求高,因为需要同时计算每个点之间的距离(Bhatia,2010)。

巴恩哈特于1995年提出的块坐标下降法是一种优化算法,在处理线性模型方面具有优势,包括线性支持向量机、LASSO回归和logistic回归(glasmachers &多安,2013).然而,“块坐标下降法”需要注意避免迭代收敛到局部极小值(Canutescu &: Dunbrack,2003)。

张量分解是托马斯·卡尔森·道尔在1941年提出的,是矩阵分解的高维扩展。其基本思想是将高维空间的张量表示为多个正交向量的线性变换组合(道尔,1941)。因为“张量分解”把一个复张量分解成几组不相关的分量,大大简化了张量的复杂度。“张量分解”在使用中往往得到更多没有实际物理意义的抽象成分,在实际使用中对数学能力要求更高。

“网络理论”是一种逐渐形成的理论。其本质是利用图论的知识来分析网络结构,而图论的起源可以追溯到柯尼斯堡的7桥问题(Biggs,Lloyd &: Wilson,1986:1736-1936)。

卷积网络,也称为卷积神经网络,由Lechoun等人于1990年提出。卷积网络通过卷积运算处理输入数据,然后传输到全连通网络结构进行运算(Lecun等,1990)。由于“卷积网络”是一种“深度学习”的方法,其优缺点与上述“深度学习”基本相同。

通过分析高引用率的国际大数据研究,可以发现上述大数据研究常用的方法并不是近年来诞生的新方法。因此,很难把这些作为一种新的研究方法,定义为“大数据方法”。一方面,国际大数据学术研究成果中不存在“大数据方法”的概念,学术文献中提到的分析大数据的各种方法早已存在,在方法层面上没有重要的创新;另一方面,国内研究界对所谓“大数据方法”的认知和定义还没有统一,内涵和外延都比较模糊。“大数据研究方法”已经成为一个具有一定随机性和标签性的学术概念。

方法论视角下的“大数据方法”

从方法论的角度来看,“大数据方法”也是一种缺乏严谨性和规范性的说法。在国际学术文献的语境中,方法与方法论有很大的不同:方法是指科学研究所需的工具,而方法论是指关于如何使用和解释这些工具的一系列原则(麦格雷戈,2017: 21)。方法论强调科学研究的哲学基础,方法论强调研究的过程和具体手段(麦格雷戈,2017: 21)。方法学和方法学之间的具体特征比较见下表。

一方面,“大数据方法”不是方法论。通过对英文文献中关于大数据的分析,不难发现大部分都应该归为具体的大数据分析方法,但很难归属于方法论。虽然中国文学对“大数据方法”有五种不同的解释,但并非每一种解释都能完全回答作为一种方法论在本体论、认知论、逻辑学和价值论方面提出的问题。例如,我们将“大数据方法”理解为大数据本身,

具体的技术手段还是数据挖掘、收集和分析,那么这种理解只停留在具体层面,并不能体现其对真理本质和知识定义的哲学理解。如果把“大数据方法”理解为一种定量研究方法,或者一种“全新的研究范式”,那么认为“大数据方法”是一种方法论是有道理的。但由于对本体论、认知论、逻辑学、价值论仍没有系统的论述,显然不宜将“大数据方法”作为方法论来评判。因此,在国际学术研究文献中并没有对“大数据方法”作为一种方法论进行讨论,并且由于国内文献对“大数据方法”这一概念的定义模糊、不一致,也无法得出“大数据方法”是一种方法论的结论。

另一方面,“大数据方法”也不是方法。国际学术研究文献中并没有提到“大数据方法”,而是用一些具体的数据分析方法来解释大数据的应用,如极限学习机、深度学习、最近邻算法等。在中国文学中,学者们对“大数据方法”有五种不同的解读。虽然有一种解释将“大数据方法”解释为特定的技术手段或数据挖掘、收集和分析行为,但这些特定的技术手段或数据挖掘、收集和分析行为之间存在显著差异,因此不可能通过统一的技术实施步骤来实施和操作“大数据方法”,这使得“大数据方法”无法作为一种方法使用。

无论从方法论还是方法论的角度来看,“大数据方法”都不能归为其中任何一种。这种困境与当前的时代背景密切相关。总的来说,大数据是一个席卷全球的热门词汇,它象征着最先进的技术和在许多人眼中的领先趋势。因此,“大数据”一词形成了席卷社会的热潮,学术界也不可避免地受到这一热潮的影响,从而营造出“大数据是一种研究方法”的氛围和环境。然而,通过对国内外学术研究文献的比较分析,我们可以发现,“大数据方法”作为一种创新的研究方法缺乏严谨的科学依据。大数据的研究方法由于其复杂而模糊的内涵和外延,很难作为一个概念来建立。“大数据是一种研究方法”在国内学术界的存在和流行当然有客观原因。由于语言的差异,国内交流学术界和以英语为主导的国外学术界之间仍然存在一些障碍。相对于后者的量来说,我国传播领域的知识生产和流通还局限在很小的范围内,不利于对新知识的广泛批判和检验,从而为类似“大数据方法”这样的虚假概念的传播提供了土壤。

学者要慎重对待所谓的“热点”,避免附和人的意见,大胆怀疑,谨慎求证,才能使知识成果站稳脚跟,经得起时间的考验。

本文为简短版本,参考文献略,原文发表于2020年第11期国际出版社。

封面图片来自网络这个词

本期编辑/阿宋

订阅信息

全国各地邮局都可以订阅《国际新闻》,国内邮政编码是82-849。欢迎订阅!

您也可以使用下面的二维码或网站https://weidian.com/?用户标识=1185747182,进入国际新闻微店,购买当前杂志和过期杂志。

您也可以访问http://cjjc.ruc.edu.cn/,国际出版社的官方网站,免费获得以前的pdf版本。


以上就是大数据:作为方法论的追踪和质疑上海证券交易所成立时间的全部内容了,喜欢我们网站的可以继续关注菁眉股票网其他的资讯!