2022年5月25日,第六期“领航学堂·学术沙龙”在bat365官网入口502会议室举行。本期活动特邀bat365官网入口施灿业老师作题为“Text as Data:计算社会科学的技术路径与前沿问题研究”的主题分享,活动由21级硕士研究生周男主持。
【主题分享】
首先,主讲人利用统计方法、量化指数以及全球调查的方式,以民主测量为主题,对比一些国际评级机构的“客观民主指数”与我国民众的民主评价指数,让同学们了解到国际机构民主评级指数流传的“广泛性”并不意味着“客观性”和“认同性”。在民主理论和方法论层面,国际机构评级指数从一开始就具有强烈的意识形态属性。
接下来,主讲人具体讲解了大数据文本统计方法,通过建模的技术对文本进行量化分析。主讲人主要介绍了两种文本分析方法,即词袋模型和词嵌入,并且说明虽然高级方法(词嵌入)更为准确,但现在一般使用的是传统方法(词袋模型)。
最后,主讲人以原始文本数据为基础,通过举例讲解了语料库的搭建,重点介绍了TF-IDF模型。TF-IDF(词频-逆向文件频率)是一种用于信息检索与文本挖掘的常用加权技术。它是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库出现的频率成反比下降。TF-IDF的主要思想是如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
【交流环节】
问:请问怎么做文献收集?
答:可以通过知网和图书馆的文献检索来收集,或者看别人引用的文献也是可以的。
问:请问您如何评价马学科的政治经济学批判理论方向?
答:中西方的话语体系不一样,但政治经济学批判有很大的发展前景,值得进一步加强研究。
问:如何顺利地申请读博呢?
答:选择适合自己的,多进行尝试,要提前准备,多联系导师,多听导师的课。
本次学术沙龙在同学们的掌声中落下帷幕,非常感谢施灿业老师精彩地讲解,让我们共同期待下一次吧!
欢迎关注官方微信