Como encontrar hashtags numa string e armazená-las num array? – php string regex

Pergunta:


Eu tenho um sistema de postagem de conteúdo em uma determinada rede social da nossa empresa.

Quando o usuário digitar o texto com hashtags, preciso detectar todas elas e armazená-las num array.

Exemplo:

Olá, estou postando essa #pergunta no #stackoverlow.
Espero que encontre boas #respostas.

Quero que me retorne:

array('pergunta', 'stackoverlow', 'respostas');

Lembrando que, se a hashtag conter caracteres com acentuação, os mesmos também devem ser processados.

Exemplo:

#notícias
#sãoPaulo

Autor da pergunta Wallace Maxters

Comunidade

Acredito que essa regex resolva o problema, é feito a combinação incialmente de # seguido por qualquer caracter no intervalo de (a-z, 0-9), os parâmetros i significa que a combinação será case insensitive, já o u adicione suporte a caracteres com multibyte.

<?php

   $str = '#pergunta no #stackoverlow #notícias 2015 #sãoPaulo';
   preg_match_all('/#w+/iu', $str, $itens);

   echo "<pre>";
   print_r($itens);

Saída:

Array
(
    [0] => Array
        (
            [0] => #pergunta
            [1] => #stackoverlow
            [2] => #notícias
            [3] => #sãoPaulo
        )

)

O @Wallace Maxters, pediu para remover o # da caputra, @Guilherme Lautert sugeriu alterar a regex para: (?<=#)w+/iu, utilizando o Lookbehind positivo, que verifica se o caracter existe porém não o captura.

Leitura recomendada

Significado de ?: ?= ?! ?= ?! em uma regex

Utilizando o comentário do @renan.

A alterando a resposta la dada:

$tweet = "this has a #hashtag a  #badhash-tag and a #goodhash_tag";

preg_match_all("/(#[^ #]+)/", $tweet, $matches);

var_dump( $matches );

Assim ele busca por qualquer coisa exceto ““(espaço), e o proprio #, que tenha # a frente.

regex101

Outra forma é casar na regex a tag com hashtag e separar somente o grupo com :

function extractTags($mensagem)
{
    // Casa tags como #dia #feliz #chateado
    // Não casa caracteres especias #so-pt
    $pattern = '/#(w+)/u';

    // Alternativa para incluir outros caracteres
    // Basta incluir entre os colchetes
    //$pattern = '/#([w-]+)/u';

    preg_match_all($pattern, $mensagem, $tags);

    // Utiliza o vetor com os grupos capturados entre parenteses
    return $tags[1];
}

Extrai essa função de uma resposta que dei anteriormente em outra pergunta: Sistema de hashtags em PHP

Em PHP você utiliza a função preg_replace, com o regex abaixo, ele vai buscar todas as palavras que contenham # e retornar em matches

preg_replace('/#[A-Za-z-0-9]+/m',$string,$matches);
var_dump( $matches );

Fonte

Related Posts:

Qual a diferença entre AppCompatActivity e Activity? – android android-activity
Pergunta: Qual a diferença da AppCompatActivity para Activity ? A partir de qual versão a AppCompatActivity foi adicionada ao Android? Autor da pergunta Luhhh A diferença reside ...
Como abreviar palavras em PHP? – php string
Pergunta: Possuo informações comuns como nome de pessoas e endereços, e preciso que elas contenham no máximo 30 caracteres sem cortar palavras. Exemplo: 'Avenida Natalino João Brescansin' ...
Qual é a finalidade de um parêntese vazio numa declaração Lambda? – c# expressões-lambda característica-linguagem
Pergunta: Criei um exemplo de uma declaração Lambda sem argumentos, entretanto, estou com duvidas referente a omissão do parêntese vazio () na declaração. Veja o exemplo: class ...
Boas práticas para URI em API RESTful – api rest restful
Pergunta: Estou com dúvida em relação às URIs de alguns recursos da api que estou desenvolvendo. Tenho os recursos projetos e atividades com relação 1-N, ...
Dúvidas sobre a integração do MySQL com Java – java mysql netbeans
Pergunta: Estou criando um sistema no NetBeans, utilizando a linguagem Java e o banco de dados MySQL. Escrevi o seguinte código para realizar a conexão ...
Qual é a finalidade da pasta Model do framework Inphinit? – php inphinit
Pergunta: No Inphinit micro-framework existe a pasta Model que fica dentro da pasta application, e nela é onde ficam as classes, mas eu estou muito ...
Uso do ‘@’ em variáveis – javascript typescript coffeescript
Pergunta: Vejo em algumas linguagens que compilam para javascript, como TypeScript e CoffeeScript, o uso do @ em variáveis, como também, casos em que o ...
Qual tamanho máximo um arquivo JSON pode ter? – json arquivo
Pergunta: Vou dar um exemplo para conseguir explicar minha duvida: Preciso recuperar informação de imagens vindas de uma API, esse banco de imagens me retorna JSON's ...
O que é Teste de Regressão? – terminologia engenharia-de-software testes
Pergunta: Na matéria de Teste de Software o professor abordou um termo chamado Teste de Regressão, isto dentro da disciplina de teste de software. Sendo ...
O que é um construtor da linguagem? – php característica-linguagem
Pergunta: Em PHP, já li e ouvi várias vezes a respeito dos Construtores da Linguagem. Os casos que sempre ouvi falar deles foi em casos ...
Função intrínseca para converter numérico para string – cobol
Pergunta: Estou a tentar saber se existe alguma função intrínseca do COBOL para converter um data numérico para string sem precisar usar a cláusula REDEFINES: ( ...
Porque usar implements? – java android
Pergunta: Qual a diferença entre usar btn.setOnClickListener(new OnClickListener() { e public class MainActivity extends Activity implements OnClickListener{ Estive fazendo um curso de Android e meu professor falou que ...
O que é XHTML e quando deve ser usado? – html xml xhtml
Pergunta: O que eu sei é que o XHTML precisa ser XML válido. Isso implica, por exemplo, que todas as tags precisam ser fechadas. Por ...
Uma placa aceleradora de vídeo pode melhorar o desempenho não-gráfico? [fechada] – desempenho
Pergunta: Para desenvolver em Ruby on Rails, eu utilizo aqui uma máquina virtual do VirtualBox com Ubuntu Server 14.04 sem interface gráfica instalada. Recentemente descobri uma ...
Concat() VS Union() – c# .net
Pergunta: Qual a diferença entre Concat() e Union() ? Quando usar Concat() e quando usar Union() ? Somente pode ser usado em list ? ...

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *