LOADING

加载过慢请开启缓存 浏览器默认开启

词频统计与分析

第一次接触 统计学 + NLP 方面的项目,记录整个项目的设计思路与具体实现方式

(好吧,其实是代码要跑很久,刚好趁着这个时间写个 blog 出来)

1. 项目背景

现有 2011 年至 2024 年全国新能源企业的年报数据,共计 5w 多份

需要针对每份年报,统计以下数据以用于行业分析:

  • 全文中 “人工智能” 相关关键词出现的频率
  • 年报中 “管理层讨论” 部分 “人工智能” 相关关键词出现的频率
  • 年报中出现的无形资产相关数据

本文主要针对前两项,即与 NLP 相关的部分

2. “人工智能”关键词的定义

(由于 blog 紧急更新一些内容,本文待更新)