这都可以（文本解读的特征）情感分析：文本可以揭示人的心理问题吗？，婚姻修复，

admin2024-09-06 01:01:3743

语言使用和心理状态紧密相关，语言特征或者语言风格反映了语言使用者的思维模式和心理状态，一定程度上可以揭示人的心理问题。因此，心理学研究者开始从语言使用角度出发探究抑郁、焦虑等心理疾病人群的文本，慢慢形成了心理语言学研究领域。近年来，随着数字人文的发展，研究者们也开始将情感分析等数字技术应用于文本分析当中，以此探究语言使用者的心理状态。

导师一对一：aizhidaozixun
添加微信好友, 获取更多信息
复制导师一对一

社会的现代化发展推动了社会进步，给人类带来了空前的便利和物质资源，但同时现代化的浪潮也荡涤了传统文化，冲击了人们的思想观念，导致心理问题频频发生。目前，心理问题已成为全球普遍存在的社会性问题，威胁着全人类的身心健康。据世界卫生组织估计，全球有3 亿多人饱受心理问题的折磨。

鉴于心理问题的严重性和普遍性，先前的研究开始从不同角度探究心理问题，希望能揭露心理问题的本质，为心理问题的预防、诊断和治疗提供帮助。例如，有些研究从生理和社会角度探究了心理问题出现的根源。他们发现，基因遗传、病毒感染、工作压力、种族歧视等生理和社会因素与心理疾病的发生紧密相关。

近年来，研究者还开始从文本角度出发分析不同心理状态人群的语言使用特征。这类研究的依据在于，一个人的心理状态会影响其思维模式、情感状态和交流方式，从而影响其使用的语言。换言之，一个人的语言使用特征或者文本风格反映了其心理状态。因此，我们可以通过文本分析探究不同心理状态人群的语言使用特征，这有助于心理问题的早期诊断和识别以及心理状态的追踪。

目前，从文本层面出发的研究主要围绕两个方面展开。一方面是探究不同心理状态人群的词汇使用特征。例如，Zimmermann et al.(2017)追踪调查了 29 名抑郁症患者日常对话中人称代词的使用情况。研究发现，"me" "my" 等第一人称单数代词的使用可显著预测患者约 8 个月后的抑郁症状。其他类似的研究也发现了第一人称代词使用和心理疾病之间的紧密关系。第一人称单数代词的过度使用可能说明说话者过度关注自我，喜欢跟其他人保持一定的情感距离和社会距离，从而增加出现心理问题的风险。再如，Al-Mosaiwi 和 Johnstone（2018）分析了不同心理状态人群社交网络发文中绝对词（比如 "absolutely" "all" "totally" "completely" ）的使用情况。结果表明，有抑郁、焦虑等心理问题的人群比正常人群使用更多的绝对词。该结果说明，有心理问题的人群思考问题时可能更加极端激进。

另外一方面，研究者们开始探究不同心理状态人群产出文本中的情感特征。例如，Rude et al.（2004）基于 LIWC 软件中的 262 个消极词和 345 个积极词词表，分析了抑郁症患者、抑郁症痊愈者和心理健康人群写作文章中情感词的使用情况。结果显示，与抑郁症痊愈者和心理健康人群相比，抑郁症患者在文章中会使用比较多的消极词，比如 "gloom" "sad" "fight" "homesick" 等。消极词的高频使用可能反映了抑郁人群的消极思维。也就是说，他们可能经常以悲观的态度对待周围的事物，总是只看到消极错误的一面，而忽略了事物的两面性。类似地，Herbert et al.（2018）也基于 LIWC 软件中的情感词表分析了抑郁人群和健康人群在描述消极、积极等个人经历时使用的情绪词汇。研究发现，抑郁人群会使用更多的消极词和悲伤词，反映了他们描述个人经历时的消极倾向。

再如，Tsugawa et al.（2015）分析了不同程度的抑郁症患者在推特上的社交活动特征，比如发文频率、发文长度、发文的主题、积极词和消极词的使用等。其中，积极词和消极词的使用情况主要是根据自建的情感词表（760 个积极词汇和 862 个消极词汇）进行判断。研究发现，抑郁症患者和正常人群在消极词的使用上存在显著差异。抑郁症患者使用消极词的频率显著高于正常人群。Eichstaedt et al.（2018）则调查了脸书用户的社交活动特征和抑郁程度的关系。研究结果也表明，悲伤词等消极情感词的使用频率一定程度上反映了用户的社交障碍和低落情绪，因此这类词的使用情况能够有效预测用户的抑郁程度。

……

情感分析又称意见挖掘或者倾向性分析，主要是对带有情感色彩的主观性文本进行分析和处理，从中提取或者识别出对服务、产品、个人、组织、问题、主题、事件及其属性的情感、意见、评价和态度。情感分析的结果一般以两种极性呈现，比如积极/消极、好/坏、高兴/不高兴、优点/缺点等。例如，“这个手机性能很好，推荐大家购买” 这条评价就表达了消费者对该 “手机” 产品的积极评价。这类情感分析结果可以为企业、消费者、教育和医疗机构、政府机构等提供有关产品、服务等方面的反馈信息，为未来决策或者改进方向提供指引。

目前，情感分析主要基于两种方法：机器学习方法和词典方法。机器学习方法是一种基于分类的方法，主要过程分为三步。首先，通过人工标注一部分文本的情感作为训练语料。然后，利用人工标注好的数据训练模型，得出情感分类器。最后，利用训练好的情感分类器对新的测试数据进行情感分类。该方法的优点是，能够比较准确地分析文本的情感。但是，该方法需要大量事先标注好的语料，比较耗时耗力。另外，训练好的模型适用性较差，只适用于某一具体领域，对于不同领域（如商业和政治）的数据需要重新训练，成本相对较高。

鉴于机器学习方法的局限性，有学者建议使用基于词典的方法进行情感分析。该方法主要利用情感词典来确定文本的情感。情感词典就是一个包含各种情感词的词汇列表，包括积极词、消极词和中性词。例如，"good" 是积极词，"bad" 是消极词，而 "hello" 是中性词。通过计算文本中包含的情感词，我们就能确定该文本的情感倾向。例如，句子 "I am good." 的情感倾向属于积极。此外，学者们还注意到了不同词的情感强度对句子情感的影响。比如，有些词典不仅将单词分为积极和消极两类，而且通过情感值或者配价标注其积极和消极强度（如-1到+1，负数表示该词是消极的，并且越接近 -1越消极，正数表示该词是积极的，并且越接近1 越积极）。

情感词典的编撰方式主要有三种：人工标注方法、基于语料库标注方法和基于字典标注方法。第一种人工标注方法就是研究者手工标注单词的情感属性，将其标注为积极/消极或者对单词进行正负分值的赋分。该方法在早期阶段较常使用，比如Stone et al.（1966）开发的 Harvard General Inquirer 就是基于该方法编撰而来。但是，该方法比较耗费时间和人力，因此现在很少单独使用，很多时候都是配合其他两种方法使用。第二种基于语料库标注的方法主要将一部分已经人工标注好的情感单词作为种子词汇，然后利用互信息等统计方法从语料库中提取出与种子词汇语义上密切相关的单词，从而形成情感词典。该方法主要基于语境共现论，即积极的词总是跟积极的词共同出现，而消极的词也总是跟消极的词共同出现。因此，我们可以根据一小部分情感词提取出语义上跟它们紧密相关的词，从而扩充情感词典。比如，Al-Twairesh et al.（2016）的阿拉伯语情感词典和 Feng et al.（2015）的微博情感词典都基于语料库方法开发而来。第三种基于字典标注方法也是将一部分情感词作为种子词汇，然后利用现有的字典资源，比如词网，来提取它们的近义词或者反义词来扩充情感词。例如，Darwich et al.（2016）的马来语情感词典就是通过该方法编撰而来。

综合来看，基于词典的情感分析方法适用范围更广，可广泛用于不同领域文本的情感分析，具有较强的跨领域性。另外，目前情感词典开发相对成熟，有许多现成的大型情感词典可以使用。因此，本研究将采用基于词典的方法对不同心理状态人群在推特上的发文进行情感分析。

下面，我们将介绍 R 语言中用于情感分析的包资源以及常用的情感词典。

R 语言中有许多现成的情感分析包，比如 syuzhet 和 sentimentr。这些包中内置了各种词典，比如 syuzhet、AFINN、bing 等等。这些词典包含的情感词汇数量各不相同，标注情感强度的方式也各不一样。表 9.1 总结了 syuzhet 和 sentimentr 包中常用的情感词典及其情感强度标识方式。

表 9.1 syuzhet 和 sentimentr 包中常用的情感词典总结

情感词典

情感词

数量

情感值

Syuzhet

10478

-1 到 1

AFINN

2477

-5 到 5

Bing

6789

-1 到 1

NRC

13901

"positive"

或 "negative"

SenticNet

23626

-1 到 1

syuzhet 和 sentimentr 在功能上大体相同，都可用于计算文本的情感。使用者只需要调用包中的函数就可以快速计算出文本的情感值。因此，这两个包已被广泛应用于各类情感研究中，比如产品评价、政治话语分析、新闻分析、学术文本分析等等。需要注意的是，和 syuzhet 不同的是， sentimentr 包考虑了配价转移问题。具体来说， sentimentr 包将否定词（如 "never"）、转折词（如 "but"）、程度词（如 "very" 和 "slightly"）等影响情感程度的词汇也考虑在内。比如，由于句子 "I am not happy" 中包含了积极词 "happy" ，syuzhet 会将该句子的情感标注为积极，但是 sentimentr 考虑到句子中有否定词 "not" ，因此该句子的情感会变成消极。从以上例子可以看出，sentimentr 能够更加准确地估计出文本的情。鉴于此，本研究将使用 sentimentr 包计算不同心理状态人群在推特上发文的情感。

上文选自：《语言数字人文与R语言实践》

一本专门为语言研究者撰写的R语言保姆级教程，引领您从入门到实践！

作者语：

做语言数字人文，我们是认真的。《语言数字人文与R语言实践》从零基础语法入手，到数据与文本的处理与绘图，再到语言数字人文研究实例，形成从入门到实践的完整闭环。

作者：施雅倩雷蕾

ISBN 978-7-313-29044-1

定价：86.00元

长按左侧二维码

轻松购书

内容提要

本书以实践为导向，详细介绍了如何利用R语言进行语言数字人文数据处理，讲解深入浅出，步骤清晰，易于理解和实践操作学习。本书收录了三个具体的案例，向读者介绍了R语言在文献计量学、心理学和传播学领域的实际应用，有助于研究者扩大研究边界，产出语言数字人文新知，提升研究质量。本书适合语言数字人文相关领域研究者使用。

作者介绍

雷蕾，博士，上海外国语大学教授、博士生导师。研究兴趣涉及语料库语言学、学术英语、计量语言学等领域。在剑桥大学出版社等出版专著5部，在Applied Linguistics、Language Teaching、Journal of English for Academic Purposes、International Journal of Corpus Linguistics 等SSCI期刊发表研究性论文近40篇、书评10余篇，其中两篇论文入选 ESI 高被引论文；在CSSCI 期刊发表论文或书评10余篇。主持完成国家社科基金等项目多项。兼任Journal of English for Academic Purposes (SSCI) 等国内外期刊编委。

施雅倩，博士，华中科技大学讲师。研究兴趣涉及语料库语言学、计量语言学、学术英语等领域。在System、Lingua、Journal of Quantitative Linguistics、English Today 等SSCI期刊发表研究性论文多篇。担任 Humanities and Social Sciences Communications、Journal of Language and Education、Heliyon 等国际期刊审稿人。

目录

（上下滑动查看更多）