罗切斯特大学研究揭示COVID-19疫情下社交媒体舆情的心理动机与社会影响
机器心脏报告机器心脏社论部
该病毒会影响人们的身体,也正在改变人们之间的关系。美国罗切斯特大学的计算机科学家正在分析公众舆论中新型冠状病毒大流行的社会影响,结果令人发人深省。
自今年1月底以来,Covid-19逐渐展示了全球趋势,并已成为国内外人们之间讨论的中心。尽管世界卫生组织(WHO)最早于2月将该病毒命名为2019年冠状病毒病(Covid-19),但许多用户仍在国外社交网络上使用“武汉肺炎”和“中国病毒”。
但是有多少人使用这些词?他们是什么样的人?使用这些单词的心理动机是什么?最近,罗切斯特大学的研究人员对此进行了一系列研究。
根据GDELT数据,提到“中国流感”一词的新闻报道数量从1月18日起增加了,而世界卫生组织的官方标准名词是Covid-19。同时,关于共同-19相关的种族攻击的报道也在增加。
随着新冠状病毒的全球大流行,新的冠状病毒已成为社交平台上用户讨论的热门话题。当这些用户提到Covid-19时,有两个主要术语。一种是使用诸如“中国病毒”或“ Wuhan病毒”之类的词,另一个是使用“新冠状病毒”()词汇。
罗切斯特大学的研究团队使用API抓住大量数据,并分析了从年龄,性别,政治倾向,地理位置和更深层次的心理层面选择这两个任期的人群。
在社交媒体上说“中国病毒”的人
研究小组发表了该系列中的第一篇论文,“ Sense and and:Media用户在Covid-19中使用术语”,由罗切斯特大学数据科学中心Lyu撰写,Long Chen,Long Chen和Roger Bo,该系计算机科学。以及政治学系Yu Wang。
纸链接:
研究小组使用API抓住了1700万条推文及其作者信息,试图研究选择这两个术语的人们的年龄,性别,用户级特征(例如粉丝的数量,是否是大V用户),政治倾向(它们是我在上的粉丝的重要两党人物)以及地理位置的差异。在研究中,团队还设计了一个分类器,以预测哪些用户更喜欢使用“中国病毒”之类的词。
基于对数百万推文的分析,研究人员得出了许多值得关注的结论:
使用“中国病毒”等表情的男性中有61%的人;
在使用新冠状病毒等表情的男性中,有56.2%的人占56.2%;
在使用新冠状病毒等表情的人中,有一半以上的年龄在35岁以下;
来自农村地区和郊区的用户倾向于使用“中国病毒”之类的表达方式;
在那些可以确定政治倾向的人中,唐纳德·特朗普的支持者最有可能使用“中国病毒”之类的表达方式,例如伊丽莎白·沃伦( )和皮特·布吉(Pete )(均为2020名民主党总统候选人)支持者最有可能使用中性词汇;
建立帐户的时间越长,用户越有可能使用新冠状病毒等语句。
图1显示了有关“中国流感”和COVID-19与种族攻击的全球新闻报道的数量时间表。与COVID相关的种族攻击的新闻报道仍在上升。研究发现,有一些媒体直接将Covid-19与“中国病毒”联系起来的媒体对中国环游世界的中国人的心理健康产生了负面影响。此外,在社交平台上使用“中国病毒”或“中国流感”也在增加。 3月16日,美国总统唐纳德·特朗普( Trump)使用他的帐户明确称Covid-19为“中国病毒”。尽管他后来声称这种使用没有种族意义,对美国亚裔美国人的种族主义和歧视,在美国社会中继续蔓延。
图1:有关“中国流感”和共同19-9相关的种族攻击的新闻报道的密度。
- “平台种族主义”()和等社会平台的概念实际上是种族主义的放大器。当使用“中国病毒”之类的表达方式指向Covid-19,可能会发表仇恨言论,这反映了社会中的矛盾。在社交平台上,仇恨言论的传播非常迅速,甚至可以跨平台和长期停留。即使之后有意识地删除了它,人们仍然可以在互联网上其他地方甚至离线找到痕迹。
罗切斯特大学的研究重点是分析年龄,性别,用户级特征(例如,粉丝的数量,无论是大V用户)和政治倾向(我在上有粉丝。 ,以及地理位置的差异。
为了找到此类用户,该研究使用“中国病毒”和“新的冠状病毒”作为关键字,并捕获了使用这两种单词的及其发行商,并将中的“中国病毒”分为CD组,将上的“新冠状病毒”分为ND组。分析后,研究做出了以下发现。
年轻人倾向于使用和词汇
图2显示了两组人的年龄分布。在这两组中,25-34岁的年龄群是用户数量最多的年龄组,这与所有用户的年龄分布一致。但是,两组的比例显着不同(p
https://img2.baidu.com/it/u=3519084809,3466456368&fm=253&fmt=JPEG&app=138&f=PNG?w=500&h=335
图2:CD和ND组中用户的年龄分布。
该研究进一步发现,ND组中女性用户的比例高于CD组的比例。比较五个用户特征(在上的“社交资本”,粉丝的数量(#),朋友数(#),状态数(#),喜欢(#)的数量(#)和组数量(#)进行比较(上的“社会资本”)之后,可以看出,具有较高社会资本()的用户使用较低的单词,例如“中国病毒”。
进行此观察的原因是,这些用户有更多的观众,因此发布内容时会更加谨慎。发现表明,用户认为自己的状态(即使不是原始的)是他们自己的“属性”,因此在发布身份时,他们将非常谨慎,并且在朋友之间共享时会更加小心。
另一方面,研究发现,ND组的用户帐户中位时间为74个月,而CD组的帐户中位时间为63个月,差距近一年。
此外,还有一些统计数据:倾向于共和党人并支持唐纳德·特朗普( Trump)的用户更喜欢使用“中国病毒”之类的词;生活在农村地区的用户更喜欢使用“中国病毒”之类的表达方式。
他们在使用这些词汇时在想什么?
喜欢说“中国病毒”的人通常会注意共和党,而在短时间内进入社交网络时,他们会更鲁ck?如果您认为这些结论看起来相对简单,那么在第二篇论文的进一步研究中,团队对用户进行了更深入的分析。
论文2:“在媒体使用媒体使用和covid-19的术语的主题中”
纸链接:
这次团队获得了更多数据。通过API,研究人员总共获得了2,607,753个CD 文本和69,627,062 nd 文本,并从两组中抽样了200万本,作为最终的研究数据集。研究人员使用(LDA)提取文本主题信息,最后提取了CD和ND组中最重要的五个主题,每个主题都包含10个单词。
下表显示了研究人员根据LDA模型获得的CD和ND组的主题关键字。
表1:CD和ND组的前5个主题。
为了深入了解两组用户,该研究和Word Count 2015()可以提取文本中包含的作者的情感和心理信息,最后提取了4个摘要的语言变量和12个详细的语言变量。它是基于预设词典的文本分析工具。通过计算文章中出现每种词汇的频率,它可以反映并捕获文本的情感,作者的心理信息,作者的动机和时间(过去,现在),未来)注意力以及有关事物的信息作者关心。
分析后,研究人员得出以下结论。
ND组用户具有更强的语言逻辑,更真诚的表达和更积极的情绪。
图1显示了4个摘要语言变量中CD和ND组文本的得分。
图1:CD和ND组中的摘要语言变量。
CD和ND组在“影响力”项目中得分类似。较高的“影响力”分数意味着作者在写这些单词时更多地从专业角度来看。同时,ND组的“,”和“音调”得分高于CD组中的分数。
“”分数反映了文本的逻辑,更高的”分数表示文本更正式和逻辑。 ”“分数越高,作者在写作时就越诚挚。 CD和ND组中“音调”的得分都低于50,这意味着两组中文本的主要情感语气都是负面的,但是研究人员发现了一些微妙的差异:ND组的文本相对于CD组中的文本。更积极。
ND小组更关心自己的未来行为,而CD组用户更关心其他人的现在或过去
图2显示了更详细的12个语言变量上CD和ND组的得分。
图2:CD和ND组的详细语言变量得分。
“- ”和“过去”得分通过分析作者使用的动词时态,反映了作者对时间点的关注。从上图可以看出,ND组的文本表明作者更关心未来,而CD组的文字表明作者更关心过去。为了更好地了解这两个分数之间的差异,本文采用了一种类似于等人的研究方法。
该研究进一步提取了五个其他语言变量,包括使用4个个人代词和1个时间点焦点评分的百分比得分。表2显示了CD和ND组的五个分数的情况。
https://img2.baidu.com/it/u=1554174977,1053286103&fm=253&fmt=JPEG&app=138&f=JPEG?w=800&h=1665
表2:“ i”,“我们”,“她/他”,“他们”和 - 的得分。
CD组的文本显示更多其他(“他们”),而ND组的文本显示更多的自我(“ I”,“我们”)。这两个小组在“ He/He”项目上的得分类似。对于当前的注意,CD组得分高于ND组。
上面的发现与等等的发现相似,可以推断,CD组的文本更关注他人的当前或过去的行动,而ND组的文本更关注他们自己的未来行动。
ND组表现出更多的悲伤和焦虑,CD组用户表现出更多的愤怒
现有的研究发现,LIWC可以识别作者在写作时表达的情绪。从上面的分析中,研究人员发现,在CD和ND组文本中表达的主要情绪为负,其中ND组文本中表达的情绪相对积极。这与研究人员对更详细的语言变量“”和“”的发现是一致的。
但是,研究人员发现“”和“愤怒”的更详细变量的细微差异。当人们提到Covid-19时,ND组中的文本表现出更多的悲伤和焦虑,而CD组中的文本则显示出更多的愤怒。 。
ND组用户的文本专注于描述事实,而CD组用户的文本专注于表达想法
例如,两个语言变量“”和“”的分数反映了作者经历的事件的发展程度,例如,事件已经结束,或者事件不断发展。在文本中,如果更多使用诸如“”或“从不”之类的单词,则会产生更高的“分数”;如果更多使用诸如“也许”或“”之类的词,则文本将以更高的分数产生;如果更多使用“也许”或“”之类的单词,则文本将以更高的“分数”生成;如果诸如“也许”或“”之类的单词被更多地使用,则文本将以更高的“高”高“高”生成““ 分数。
在CD组的文本中,“”和“”的得分更高,而ND组中两个文本的得分相对较低。
这项研究对这种微妙的差异有一个有趣的猜想。自1986年以来,等人。开始从不同的文本类别中收集语言样本,包括博客,小说,每日对话,《纽约时报》和。他们将LIWC应用于这些样本,并像本研究一样提取了这些语言变量的得分。在他们的发现中,《纽约时报》文本的“和”得分最低,而博客的两个语言变量的分数,每天的对话相对较高。该研究的猜想与这一发现有关:CD组的文本与博客或每日对话更相似,并且更专注于表达思想,而ND组的文本与诸如诸如此类新闻报道更相似纽约时报,专注于描述客观事实。
ND组表现出更大的成功需求
发现人们在描述时使用的词汇将反映个人需求,而“分数”通过计算使用这种词汇的使用频率来反映作者对“”的需求。
ND组文本的分数高于CD组文本。关于这一发现的假设是,该分数相对较高,这可能反映了ND组中用户在击败Covid-19-19-19的流行病中的更强心理需求。
ND小组相对关注的工作和财务主题
关于个人关注的内容,ND组文本中的“工作”和“金钱”得分更高,这表明ND组的用户可能更关心工作和财务主题。关于工作的讨论不仅是在家工作所带来的工作状态的变化,而且其中很大一部分与失业率上升有关。
经过大量数据分析,研究人员得出了一系列关于使用“中国病毒”来表达人们的结论,这使我们对有偏见的人有了更深入的了解。
同时,这也提醒我们,除了交流目的外,语言还带有许多含义,例如社会和文化。除了在此问题中使用适当的单词表达“ covid-19”外,我们还需要更多地考虑使用语言的使用。
参考
A.-Fernández,``:':和。
C. Lin,“ 2019年小说(Covid-19)。” SOC,3:1-2,2020。
DC,“人类的力量和高级”,第1卷。 88,不。 2,第2页。 182,1979。
I.,D。Gal,T。Alves和G.,“仇恨”,2015年。
JW,RL Boyd,K。和K.,“ The and of”技术。众议员,2015年。
MA,S.,SE和Z. Mabe,《&Media的形式》,第1卷。 44,不。 1,第27–42页,2000年。
YR和JW,“词:liwc和文本甲基动物”,of and,vol。 29,没有。 1,第24-54页,2010年。
Y. Zheng,E。Goh和J. Wen,``关于Covid-19 on的媒体:A。
Z.和D. Hovy,``还是?仇恨。
页:
[1]