央视网|中国网络电视台|网站地图
客服设为首页
登录

中国网络电视台 > 新闻台 > 新闻中心 >

热词热语怎么选拔

发布时间:2012年07月06日 14:44 | 进入复兴论坛 | 来源:新民晚报 热点专题 | 手机看视频


评分
意见反馈 意见反馈 顶 踩 收藏 收藏
channelId 1 1 1

更多 今日话题

更多 24小时排行榜

  《2011年中国语言生活状况报告》最近发布,伤不起、虎妈、淘宝体和另外7个词,被宣布为“十大新词语”,十二五开局、乔布斯、利比亚局势等则是“十大流行语”……

  许多人好奇,这两个“十大”到底是怎么“选拔”的?该不是一帮人围一桌你一言我一语凑出来的吧?中国传媒大学教授侯敏对此回应:怎么可能?这可是历经监测、过滤、筛选、释义等一整套程序,从每年10亿字的语料中像沙里淘金那般“提炼”出来的。

  沙里淘金,几万条中挑几百个

  侯敏教授有着另一个头衔:国家语言资源监测与研究中心有声媒体语言分中心负责人。她介绍说,每年总量10亿字的语料,取自平面媒体、有声媒体和网络媒体,并且逐年积累形成三大语料库。

  语料备齐,先要人工“淘洗”一番,查找补正漏字、缺字、乱码等,而后一股脑儿送进语言信息处理技术平台,平台上装着全切分软件、自动分词软件等。在电脑上输入“我是学生”,立马会被切分成我、是、学、生4个字与我、是、学生3个词。

  把语料统统切分成词语之后,需借助软件把它们跟此前几年的词语作比对,去旧留新,剩下来的就构成了年度新词语候选集――候选的词语有多少?年均几万条。侯敏说,每年最终入围的几百个新词语,就是从这几万条候选词中遴选出来的。遴选完全由人工操作,选中的词语还要逐条释义,为此几十名专家得集体工作两个多月。

  相比新词语,流行语的“选拔”简单些。利用电脑软件,统计出每个词在365天中的生命周期长短、出现频次高低等指标,然后对比前一年数据,使用频率相仿的即刻淘汰,而一旦发现使用频率“异峰突起”的,就留下。

  “额的神啊”“吊丝”为啥没选上

  2011年度语言生活报告公布后,有人对那些热词、热语有意见:“跟我们的感觉不一样啊?”“有些用得很多的网言网语怎么没入选,‘额的神啊’在哪儿?”“今年2月,我们就2011年度的热词、热语向网友征求意见时,就听到了各种建议。”侯敏教授说,网友们举出了不少新鲜的网络用词,问报告中怎么不见踪影?我跟他们解释:网络媒体语料库在采集语料时以网站的新闻栏目为主,BBS论坛、网友留言与发帖不在其列,“‘额的神啊’仅在论坛里热度很高,所以‘落选’了。”

  今年,“吊丝”一词的去留成了争论最激烈的一个议题。经过一应前道工序,它也进入了候选集,但专家们犯难:不选吧?确是新词,征求意见时网友呼声极高;选吧?这个词品位不高,想准确释义更难。“我们选词有标准,得是新词,得有一定使用频率,得能反映当今社会生活,还得‘干净’,要有一定品位。” 文汇报(王乐)

热词:

  • 有声媒体
  • 选拔
  • 侯敏
  • 自动分词
  • 资源监测
  • 十大
  • 神啊
  • 新词语
  • 吊丝
  • 网络媒体